Лингвистический анализ занимает одно из центральных мест в поиске Яндекса. Мы непрерывно работаем над повышением точности, увеличением глубины анализа, расширением числа поддерживаемых языков. Объектом анализа выступает уникальный по охвату корпус текстов на естественном языке - индекс поисковой машины Яндекса и поток запросов к ней.
Нам требуется опытный разработчик на С++, способный самостоятельно производить полный цикл разработки компонент лингвистического анализа - от придумывания алгоритмов до построения инструментов тестирования.
Требуется
свободное владение языком С++, умение ясно структурировать код;
хорошее владение по крайней мере одним языком из списка: Python, Perl, Ruby, Unix tools(sh/sed/awk/) для быстрого прототипирования и структурирования больших объемов данных;
знание основ математической статистики;
понимание принципов компьютерной обработки текста;
умение читать чужой код и разбираться в устройстве существующих сложных систем;
владение английским на уровне свободного чтения технической литературы;
умение общаться с лингвистами.
Большим плюcом будет
образование, наличие научных работ в области computational linguistics, information retrieval, теории вероятностей или смежных областях;
опыт работы в крупном проекте на позиции, связанной с разработкой сложных алгоритмов над большими объемами данных;
опыт работы с формальными языками и грамматиками, особенно компиляции формальных языков в эффективный исполняемый код;
опыт проектирования многопоточных и распределенных приложений.
Условия
Работа в офисе Яндекса в Москве полный рабочий день.