ПоискПочтаКартыМаркетНовостиСловариБлогиВидеоКартинки
Войти

Технологии

Поиск изображений с учётом региона

По одному и тому же запросу пользователям порой нужны разные ответы — соответствующие их региону. Такие запросы называются геозависимыми. Яндекс.Картинки, как и основной поиск Яндекса, отвечают на эти запросы, учитывая регион пользователя, — это называется георанжированием.

При поиске изображений, в отличие от поиска веб-страниц, не так важна географическая точность, поэтому регионы для Яндекс.Картинок — это страны целиком. Пользователи из России, Украины, Беларуси и Казахстана ежедневно задают на сервисе десятки тысяч геозависимых запросов. В ответ на такие запросы, например, [паспорт] или [народный костюм], пользователи из разных стран видят разные результаты поиска.

Поиск изображений учитывает регион пользователей из России, Украины, Беларуси и Казахстана. В ответ на геозависимые запросы люди из разных стран видят разные ответы.

Из какой страны картинка

Чтобы определить, насколько изображения связаны с той или иной страной, учитывается ряд геофакторов. Например, количество ссылок на картинку с сайтов этой страны, их доля от вообще всех ссылок. Отношение сайта к стране определяется по нескольким критериям: язык текста на сайте, его домен и т.д. Для всех изображений в поисковой базе Яндекс.Картинки вычисляют значения геофакторов, которые использует формула георанжирования.

 

Создание формулы георанжирования

Для добавления геофакторов в формулу ранжирования Яндекс.Картинок использовался метод машинного обучения — Матрикснет.1 Обучающей выборкой были результаты поиска по нескольким сотням различных запросов — геозависимых и нет.

Асессоры — специалисты по оценке качества поиска — изучили и оценили изображения из обучающей выборки. Эти оценки вместе с данными о принадлежности картинок к той или иной стране использовали для машинного обучения. Система нашла закономерности, вычислила коэффициенты для каждого геофактора и построила формулу георанжирования. Получившуюся формулу проверили на тестовой выборке — результатам поиска ещё по нескольким сотням запросов.

1
Матрикснет — это технология, разработанная Яндексом. Она используется при машинном обучении, например, для построения формул ранжирования.

Все данные регулярно пересчитываются. При каждом обновлении индекса Яндекс.Картинок обновляются значения геофакторов для уже известных изображений и вычисляются — для новых.

ruRu