Категории
Основные понятия
Алгоритмы, разработка, эксперимент.
Ключевые слова
извлечение данных из Сети.
1. Введение
продающие ссылки, а «авторам» (authorities) – сайты, покупающие ссылки. При этом главная задача алгоритма – идентификация непосредственно платных ссылок, а не сайтов, их продающих или покупающих.
2. Алгоритм
2.1 Классификатор «SEO-text»
Параметр, который
показателем оптимизированности текста (SEO-text). Первоначальный посев SEO-запросов был взят на популярном ресурсе оптимизаторов. На этой основе был создан изначальный классификатор оптимизированности текста (аналогично [2], в котором использовались только 2 темы: SEO и не-SEO). Затем, используя метод итераций, аналогичный описанному в 2.2, мы получили большой список слов (300 000) и двусловий (1 500 000), которые часто используются в текстах ссылок, ведущих на продвигаемые сайты. Для получения естественных словосочетаний
2.1
Алгоритм определения темы
Применив тематический классификатор (2.2) для ребер графа, мы получили 1 миллион узко тематичных целей. В нашем алгоритме мы ввели показатели SEO-out и SEO-in (в классическом алгоритме HITS «посредники» (hubs) и «авторы» (authorities), соответственно). SEO-out
показывает вероятность того, что документ продает ссылки. Показатель SEO-in показывает
вероятность того, что сайт продвигается с помощью платных ссылок. Сайты с высоким
показателем SEO-in – это чаще всего коммерческие ресурсы, которые используют
чтобы
Документ, ссылающийся на сайты разных тематик,
политематичных документов, имеющих исходящие ссылки с высоким показателем
посева документов (3 миллиона). Показатели SEO-out и SEO-in высчитываются

Рис. 1. Вычисление показателя SEO-in на основе значений SEO-out первоначального
2.4 Классификатор SEO-link
SEOlink = l1×SEOtext + l2×SEOin + l3×SEOout + … (2)
3.Результаты
2.
4.Заключение
Литература
[1] Kleinberg, J (1997) Authoritative sources in a hyperlinked environment Journal of the ACM 46 (5): 604–632.
[2] T. H. Haveliwala. Topic-sensitive pagerank. In Proc. 11th International WWW Conference, pages 517-526, 2002
[3] Laffert y J., Zhai, C. Document language models, query models, and risk minimization for IR. In Proceedings of SIG IR -2001, pp 111-119
[4] K Bharat and M R Henzinger, Improved algorithms for topic distillation in a hyperlinked environment, Proc. 21st Annual International ACM SIGIR, pp.104–111, 1998.
[5] B. Wu and B. Davison. Undue influence: Eliminating the impact of link plagiarism on web search rankings Technical report, LeHigh Universit y, 2005
[6] Yasuhito Asano, Yu Tezuka, Takao Nishizeki Improvement of H ITS algorithms for spam links APWeb/WAIM 2007, LNCS 4505, pp 479-490, 2007.
[7] S. Chakrabarti. Integrating the Document Object Model with Hyperl inks for Enhanced Topic Distillation and Information Extraction ACM 1-58113-348-0/01/0005, 2001
Нейросетибесплатно