Использование категоризации текстов ссылок и анализа графов для идентификации платных ссылок
Аннотация Для искусственного повышения позиции коммерческих сайтов в результатах поиска оптимизаторы платят за получение внешних ссылок на продвигаемые ресурсы. Возможность идентифицировать платные ссылки позволяет улучшить качество поиска. В этой работе мы представляем новый метод обнаружения подобных ссылок. Он заключается в создании тематического классификатора текстов ссылок и анализе разнообразия тем исходящих коммерческих ссылок на документе. Эти данные затем используются в анализе ссылочного графа Рунета для определения документов, продающих ссылки, сайтов, их покупающих, и, в конечном итоге, для идентификации платных ссылок. Проверка алгоритма на размеченных вручную выборках ссылок показала высокую эффективность данного метода. Категории и тематики Н.3.3 [Поиск и извлечение информации]: Фильтрация данных. Основные понятия Алгоритмы, разработка, эксперимент. Ключевые слова Поисковыемашины, языковая модель, категоризация, анализ ссылок,машинноеобучение, извлечение данных из Сети.
1. Введение На сегодняшний день основным методом поисковой оптимизации в Рунете являются платные ссылки. Платные ссылки оказывают искусственное воздействие на результаты поиска, но мы отделяем их от обычных спам-ссылок, так как платные ссылки часто встречаются на авторитетных страницах, соседствуют с естественными полезными ссылками на одном документе и указывают на полезные коммерческие сайты. Часть таких ссылок имеет высокую стоимость, на их оформление тратят значительные усилия. Текст дорогой платной ссылки всегда содержит ключевые слова и выражения из семантического ядра сайта. Тысячи оптимизаторов занимаются подобной, часто ручной, разметкой продвигаемых ресурсов. Таким образом, умение