Запущена новая поисковая машина Яndex-Web

23 сентября 1997 года, Москва — фирма CompTek сообщает об открытии новой поисковой машины http://yandex.ru. Поисковая машина использует механизм Яndex‑Web, областью поиска являются Web‑сервера доменов «su» и «ru», а также иностранные русскоязычные сервера, в том числе — стран СНГ.


(На фотографиях: Аркадий Волож, Илья Сегалович, Елена Колмановская на выставке Softool, сентябрь 1997 года)

Яndex-Web представляет собой естественное развитие программных продуктов серии Яndex (Яndex.Site, Яndex.CD, Яndex.Dict, Яndex.Lib). Как и все Яndex‑системы, Яndex‑Web является полнотекстовой поисковой системой с учетом морфологии русского и английского языка. В отличие от популярной морфологической надстройки к поисковой системе AltaVista, Яndex‑Web является полностью оригинальной разработкой CompTek.

В настоящий момент робот (сетевой паук) обходит 5 тысяч серверов (около 4 Гб текстов) каждую неделю, список серверов пополняется. При индексировании проверяется уникальность документов — это значит, что, если документ существует в нескольких кодировках и/или на нескольких зеркалах, в списке найденного он будет указан один раз (и, соответственно, один раз учтен в статистике).

Алгоритмы морфологического разбора, основанные на грамматическом словаре, умеют нормализовать слова, то есть находить их начальную форму. Для неизвестных Яndex'у слов строится гипотетическая словарная статья, позволяющая обрабатывать (анализировать и синтезировать) такие слова аналогично известным.

Язык запросов (как и в других продуктах Яndex), помимо стандартных логических операторов (И, ИЛИ), включает оператор исключения (И НЕ), а также позволяет осуществлять поиск внутри абзаца, внутри документа, в заголовках и других полях, а также с указанием расстояния между словами. В дополнение к обычной практике Яndex — нормализации слов при индексации и поиске, реализован также запрос по точной словоформе. Язык запросов более подробно описан на странице https://yandex.ru/support/search/query-language/qlanguage.xml.

Найденные документы отсортированы по релевантности, которая учитывает не только «контрастность» слова, то есть его относительную частоту для данного документа, но и расстояние между словами, и положение слова в документе.

Яndex‑Web при индексировании запоминает позицию слова в документе, что дает возможность не только искать «с расстоянием», но и выделить (подсветить) слова, найденные в тексте. Если документы были изменены после индексирования, выдается соответствующее предупреждение.

Презентация поисковой машины Яndex‑Web состоялась в четверг, 25 сентября в 16:00, на выставке Softool на стенде д17 (CompTek).

Контакты
Компания «Яндекс»
Елена Колмановская, главный редактор
Телефон: +7 495 739-70-00
Факс: +7 495 739-70-70
Электронная почта: pr@yandex-team.ru

Теги

Поделиться

Карьера в Яндексе — создавайте с нами сервисы, которыми пользуются миллионы