Аннотация:
Предложен алгоритм улучшения качества ранжирования поисковой системы на основе предсказания релевантности документов запросу. Для предсказания релевантности используются методы машинного обучения и извлечения информации из логов. Высокая эффективность алгоритма продемонстрирована на реальных, полномасштабных данных поисковой системы. Алгоритм распараллеливается по технологии MapReduce, что позволяет обрабатывать логи и производить машинное обучение на кластерной архитектуре. Разработанная методика формирования факторов ранжирования может применяться для различных задач извлечения знаний из логов.
Ключевые слова:
поисковые системы; машинное обучение; анализ логов.