Два компонента Умного поиска на hh.ru запатентованы

Компания HeadHunter запатентовала компоненты систем, рекомендующих резюме и вакансии, которые входят в Умный поиск.

Что мы запатентовали

Подробное описание изобретения представлено в патенте. Главная суть: изобретение позволяет быстро, за сотни миллисекунд, выбирать из миллионов резюме и сотен тысяч вакансий и соотносить друг с другом те из них, у которых похож не только текст, но и смысл. И делает это лучше, чем явные, подобранные вручную правила. Благодаря этому:

  • улучшается качество рекомендаций резюме и вакансий;
  • требуется меньше вычислительных ресурсов, мы экономим память и процессоры серверов.

В результате мы можем применять более сложные ML-модели, с большим количеством признаков, чтобы рекомендовать вакансии.

У этого изобретения длинное официальное название: «Рекомендательная система подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных и способ подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных».

Но если объяснить суть проще, то запатентованные компоненты позволяют сильно уменьшать объем данных, сохраняя существенную часть их смысла. Затем эти данные используются для очень быстрого предварительного отбора вакансий и резюме, из которых потом модели более точно выбирают подходящие.

Что именно мы сделали

Чтобы рекомендовать соискателям вакансии, мы понижаем размерности части векторного представления текста и смысловых категорий в вакансии и резюме до последовательностей из нескольких битов, составляем из них LSH-хеши. При обработке запроса эти LSH-хеши быстро сравниваются непосредственно в поисковом движке. Вакансия помещается в предварительный список, только если ее LSH-хеш совпадает с LSH-хешем резюме до 1 бита. Так мы экономим серверы на рекомендации вакансий, не снижая качества рекомендаций и количества откликов.

Дополнительное применение уменьшения размерности — это позволяет нам лучше представлять тексты для моделей на ансамблях решающих деревьев. Если представить текст вакансии и резюме в векторном представлении, то получатся векторы длиной около 40 000 значений для вакансии и около 60 000 для резюме, состоящие в основном из нулей. Мы уменьшаем размерности каждого вектора терминов и используем их в качестве признаков для ансамблей решающих деревьев. Применение этого решения в рекомендациях вакансий дало примерно 2900 дополнительных откликов в сутки, в поиске вакансий — 4500 откликов в сутки.

Объясняем то же самое простым языком

Если объяснить суть изобретения очень коротко не техническим специалистам, то оно представляет собой использование определенным образом сжатия данных из резюме и вакансий с минимальной потерей их смысла для ускорения их обработки.

Если еще проще, то мы из больших полноразмерных данных получаем маленькие, но сохраняющие определенный смысл, чтобы без потери качества и скорости обработки этих данных рекомендовать для вакансий резюме, а для резюме — вакансии.

Изобретение используется как для обработки запросов работодателей при поиске в базе резюме, так и для обработки запросов соискателей при поиске вакансий.

Почему это важно

Изобретение позволяет экономить как время пользователей (то есть ваше), так и наши вычислительные ресурсы. Это позволяет нам применять более сложные модели для более качественных рекомендаций резюме и вакансий и развивать Умный поиск. Мы постоянно совершенствуем его.

Без использования этого изобретения работодатели получали бы примерно на 5% меньше откликов на вакансии. И рекомендованные резюме для 75% вакансий появлялись бы не сразу после создания вакансии, а только на следующий день.

А еще для рекомендации резюме работодателям, если бы у нас не было этого изобретения, потребовалось бы:

  • Гораздо больше времени на обработку данных (не 200 миллисекунд, как сейчас);
  • Больше серверов для обработки данных, что существенно повлияло бы на стоимость использования сервиса для работодателей.

Мы продолжаем работать над улучшениями.