Образование – одно из самых важных и в то же время недооцененных полей резюме. На него работодатели обращают внимание в первую очередь, когда работу ищет молодой специалист. Часто именно образование склоняет выбор в пользу одного из кандидатов. Наконец, бывает, что компании ищут специалиста с вполне конкретным образованием, вплоть до факультета нужного вуза.
Соискатели, со своей стороны, указывают образование в резюме не очень охотно. Аббревиатура в поле образования – это еще хороший вариант. Часто можно встретить просто «техническое» или «именем Ленина» 🙂
На hh.ru «образование» до недавних пор было свободным текстовым полем, что не позволяло полноценно искать кандидатов по этому критерию, зрительно легко считывать информацию об образовании в резюме, а нам – строить статистику, полезную рынку. Поэтому настало время помочь пользователям, создав справочник вузов и нормализовав это поле.
О том, как мы решали эту задачу с 11 млн резюме и как реагировали пользователи, – в этой статье.
Большая цель состояла в том, чтобы, во-первых, новые пользователи при создании резюме выбирали вуз из нашего справочника, а во-вторых, чтобы существующие пользователи обновили свои резюме таким же образом.
Базу учебных заведений нам любезно предоставили коллеги из «Одноклассников». В ходе работы над созданием своего справочника мы ее существенно переработали, но основа была уже заложена, что значительно ускорило нашу работу на старте.
Шаг 1. Предложения при заполнении
Первым делом в форме создания резюме мы добавили выпадающие подсказки (саджесты) с правильными и полными названиями вузов из нашего справочника. За полтора месяца работы подобной схемы мы увидели, что только 45% новых пользователей выбирают вуз, предложенный нами, остальные же предпочитали оставлять свою версию, даже если она полностью совпадала с предложенной! В результате мы получили 200 тыс. резюме с нормализованным образованием, но этот показатель нужно было увеличивать как минимум на порядок.
Шаг 2. Маппинг
Новые резюме – это хорошо, но чтобы проект имел смысл и мог уже сегодня принести пользу, нужно было нормализовать существующую базу, составлявшую на тот момент около 10 млн. резюме. Поэтому мы решили замаппить (сопоставить) «образование», которое уже было указано в свободной форме пользователями на новый справочник вузов. При этом нужно было учитывать, что пользователи указывают образование в резюме, мягко говоря, очень приблизительно (просто слово «высшее» — тоже очень распространенный вариант).
Для маппинга использовался классический алгоритм поиска сходства двух текстов: cosine similarity. Каждый текст рассматривается как вектор в пространстве термов (слов, его составляющих). Чем большее количество раз слово встречается в тексте, тем большую координату имеет вектор по соответствующей оси. Similarity 2-х текстов есть не что иное, как cos между векторами в пространстве термов.
Использование этого алгоритма «в лоб» давало не очень впечатляющие результаты, поэтому пришлось внести некоторые поправки.
1. Координаты вектора, соответствующего тексту, могут принимать значения {0, 1} – действительно, несколько одинаковых слов в названии учебного заведения – это экзотика.
2. Пространство термов пришлось сделать анизотропным: координаты по некоторым осям вносят разный вклад в норму данного пространства.
Существуют часто используемые слова (например, «государственный», «технический»), которые могут быть опущены или присутствовать в пользовательском написании учебного заведения. И они должны оказывать меньшее воздействие на степень похожести текстов. Наоборот, такие слова, как «(им.) Куйбышева», более важны и позволяют с большей вероятностью установить соответствие. Таким образом, при определении уровня сходства слова, составляющие тексты, разбиваются на несколько групп, отличающихся степенью важности для поиска соответствия.
Вузы. Наследие
Переименования вузов – еще одна задача, которую пришлось решить. Например, то, что когда-то называлось «Педагогический институт», теперь именуется «Педагогический университет». Поэтому при маппинге учитывается возможная омонимия. Кстати, в 90-х сменили свои названия многие города, поэтому в рамках омонимии «Калининский педагогический институт» стоит замаппить на «Тверской педагогический университет». Тем более что работодатели сегодня знают, в основном только современное название учебного заведения.
Совпадающие аббревиатуры
Отдельную задачу составили совпадающие аббревиатуры. Во-первых, некоторые учебные заведения имели одинаковые аббревиатуры в разное время: например, Самарский государственный университет — бывший КГУ (Куйбышевский) и Курский государственный университет — настоящий КГУ.
Во-вторых, учебные заведения разных стран зачастую тоже имеют совпадающие аббревиатуры, например: БГУ – это и Брянский государственный университет им. И.Г. Петровского, и Белорусский государственный университет. Для разрешения таких коллизий приходилось учитывать информацию о городах, где находятся учебные заведения, их населении, странах проживания владельцев резюме. Большую помощь при маппинге также оказали многочисленные использующиеся эвристики.
Результат маппинга
В результате нам удалось «замаппить» чуть больше половины всех высших образований в наших резюме: 6 989 453 из 12 510 682. После тестирования и проверки мы решили, что пора открывать результаты пользователям и изучать их реакцию.
Шаг 3. Проверьте вуз в резюме
Нельзя у пользователя втихую поменять название учебного заведения. Мало кому понравится, если в его резюме системой будут самостоятельно вноситься правки, да и в справочнике до сих пор были неточности. Поэтому мы создали уведомление «уточните название учебного заведения в вашем резюме» на странице с откликами на вакансии. Результат – по этой ссылке переходило менее 10% пользователей, видевших ее: достигнуть цели таким способом не удалось. Вероятно, пользователи были уверены, что с «образованием» у них все в порядке и там нечего проверять.
Однако благодаря этому уведомлению мы увидели, во-первых, типичные ошибки, а во-вторых, странную закономерность: даже если мы замаппили все правильно, пользователи все равно возвращали свой вариант, который, возможно, им просто роднее и привычнее. Это стоило учесть на будущее.
В общем, за две недели работы уведомления мы получили еще 150 тыс. резюме с правильным образованием. Всего же за 2,5 месяца существования справочника вузов мы имели 450 тыс. замаппиных резюме, или около 5% от всей базы. Сей результат снова не впечатлял, и мы продолжили делать выводы и продумывать дальнейшие шаги.
Шаг 4. Как подцепить пассивных пользователей
С помощью саджестов и уведомлений мы охватили только активных пользователей, которые приходят на сайт. Чтобы достучаться до соискателей, которые не ищут сейчас работу, мы решили сделать рассылку на часть базы зарегистрированных соискателей. В письме мы написали, что внесли некоторые изменения в образование из резюме, и их нужно подтвердить, но можно и отклонить.
Логика в письме была следующая:
- если пользователь никак не прореагирует на это письмо, то образование в резюме останется нетронутым;
- если пользователь подтвердит, что название мы поменяли верно, то образование в резюме обновляется на актуальный вариант из нашего справочника;
- если пользователь отвергнет предложенный нами вариант, то перейдет в редактирование своего резюме, где сможет вернуть изначальный вариант.
Все случаи отказов от нашего варианта мы выгрузили и на их основе еще раз проверили справочник, внеся необходимые правки.
Тут надо заметить, что формулировка о внесении изменений в резюме оказалась не очень удачной, поэтому по другой части базы мы отправили письма, где говорили о новом справочнике вузов и предлагали пользователям обновить название вуза самостоятельно.
Спустя неделю после рассылки у нас в базе оказалось 1 000 052 завершенных резюме с образованием из справочника – существенная часть, но еще далеко не все. Поэтому мы продолжили рассылки с предложением обновить вуз, объясняя, зачем это нужно и что дает соискателям. В поддержку нормализации вузов мы также запустили проект «Битва вузов», чтобы стимулировать пользователей обновлять резюме, тем самым поддерживая свой вуз в импровизированной битве. На объективный рейтинг вузов этот проект, конечно, не претендует, но он, тем не менее, тоже внес (и продолжает вносить) определенный вклад в дело нормализации образования.
Буквально несколько дней назад добавили варианты названий вузов на английском (для резюме на английском). Пока не для всех, будем увеличивать их число.
В результате на сегодняшний день мы имеем 23% резюме в базе с нормализованным образованием, а это около 3,3 млн. До конца года планируем дойти до 30%.
Если вы не еще обновили образование в резюме, то сейчас самое время это сделать.
Если вашего вуза все еще нет в справочнике, то напишите нам об этом, и мы его добавим.
Шаг 5. Поиск по вузам – первое, ради чего всего затевалось
Благодаря тому, что фактически четвертая часть всех резюме теперь имеет нормализованное образование, и эта доля постоянно растет, мы выпустили первую стадию поиска по вузам. Теперь рекрутер может найти выпускников конкретного учебного заведения, просто кликнув на него в любом резюме, а с помощью поисковых фильтров выборка быстро сужается до требуемого города, профсферы, опыта работы кандидата, знания языков, желаемого типа занятости и так далее. Работодателям, которые точно знают, чего хотят, или просто привередливым (как вам больше нравится) теперь стало намного легче находить нужных кандидатов. Но это только начало.
Нормализация образования – это лишь часть проекта нормализации, в который также входит нормализация должностей, навыков, работодателей и профессиональных областей.
Если есть идеи и вопросы по этому проекту — всегда рады им в комментариях.
ссылка на оригинал статьи http://habrahabr.ru/company/hh/blog/199352/
Добавить комментарий