|
| ||||||||||||||||||||||||
ТехнологииЯndex.Dict - словарный серверЗадача Яndex.Dict - понимание и расширение запроса пользователя и передача обработанного запроса независимому поисковому механизму. Яndex.Dict работает с уже готовым индексом, созданным без учета морфологии языка. Принцип взаимодействия Яndex.Dict с поисковым механизмом — преобразование ("морфологизация") поискового запроса, то есть каждый элемент поискового запроса, опознаваемый как слово русского языка, заменяется на все его словоформы. Пример (из жизни) морфологического разбора: пить квас преобразуется в (пей OR пейте OR пив OR пивш* OR пивши OR пил OR пила OR пилась OR пили OR пились OR пило OR пилось OR пился OR пит* OR пить OR питься OR пьемOR пьет OR пьете OR пьется OR пьешь OR пью OR пьют OR пьются OR пьющ*) NEAR (квас OR кваса OR квасам OR квасами OR квасах OR квасе OR квасов OR квасом OR квасу OR квасы) Если слово не существует в словаре ни как имя нарицательное, ни как собственное, то словарный сервер на основании имеющихся у него морфологических правил строит гипотезы возможной нормализации и словоизменения. Пример (из почты нашего сервера) генерации гипотезы для "неправильного" слова: компутер анализируется как компутер образец: футер (СУЩЕСТВИТЕЛЬНОЕ, им вин, ед, муж, неод) компутер образец: скутер (СУЩЕСТВИТЕЛЬНОЕ,им вин,ед,муж,неод) компутирать образец: утирать (ГЛАГОЛ,прош,ед,изъяв,муж,сов) Существует возможность обучить словарь, что означает пополнить его новыми словами с отнесением их к соответствующей морфологической группе. Яndex.Dict может также производить синтаксический анализ, то есть определять согласование слов и изменять их соответственно. Пример (из "Записной книжки" А.Кнышева) учета словосочетаний: для ваучерного фьючерса превратится в: для NEAR ((ваучерного NEAR фьючерса) OR (ваучерных NEAR фьючерсов) OR ((ваучерного OR ваучернейшего) NEAR фьючерса) OR ((ваучерных OR ваучернейших) NEAR фьючерсов)) Учет словосочетаний позволяет увеличить релевантность запроса и сократить его длину, что может быть существенно как в смысле быстродействия системы, так и в смысле существующих ограничений на длину запроса. Свойства поискового интерфейса, необходимые для встраивания Яndex.Dict:
Желательные свойства поискового интерфейса:
Зачем нужны морфология и синтаксис или Как искать ветра в полеРаспространено мнение, что шаблон "*", означающий любой набор символов, достаточен для поиска в русских текстах. То есть все проблемы, связанные с особенностями морфологии (п. 5.3), решаются путем обеспечения развитого языка запросов (п. 2.2). Но представьте себе - Вы узнали, что искали ветер в поле и нашли. Чтобы найти эту информацию, Вы, вероятно, попросите компьютер поискать слова "ветер" и "поле". Но если в тексте были формы "ветра" или "полях"? Остается вариант шаблона - "вет*" и "пол*", что тут же выдаст Вам материалы о польской ветчине и политике вето! Отсутствие морфологии сильно, а иногда катастрофически влияет на чувствительность и избирательность поиска. Запрос "ветер И поле" уменьшает чувствительность, а "вет* И пол*" - избирательность. Случаи, когда шаблон не спасает:
| ещё Темы для главной страницыещё Исследования Яндексаещё Картинки и цифры про интернет |
Ru |
© 1997—2012 ООО «Яндекс»
|