Как обнаружить сео ссылки

Page 1


Категории

Основные понятия

Алгоритмы, разработка, эксперимент.

Ключевые слова

извлечение данных из Сети.

1. Введение

продающие ссылки, а «авторам» (authorities) – сайты, покупающие ссылки. При этом главная задача алгоритма – идентификация непосредственно платных ссылок, а не сайтов, их продающих или покупающих.

2. Алгоритм

2.1 Классификатор «SEO-text»

Параметр, который

показателем оптимизированности текста (SEO-text). Первоначальный посев SEO-запросов был взят на популярном ресурсе оптимизаторов. На этой основе был создан изначальный классификатор оптимизированности текста (аналогично [2], в котором использовались только 2 темы: SEO и не-SEO). Затем, используя метод итераций, аналогичный описанному в 2.2, мы получили большой список слов (300 000) и двусловий (1 500 000), которые часто используются в текстах ссылок, ведущих на продвигаемые сайты. Для получения естественных словосочетаний

2.1

Алгоритм определения темы

Применив тематический классификатор (2.2) для ребер графа, мы получили 1 миллион узко тематичных целей. В нашем алгоритме мы ввели показатели SEO-out и SEO-in (в классическом алгоритме HITS «посредники» (hubs) и «авторы» (authorities), соответственно). SEO-out

показывает вероятность того, что документ продает ссылки. Показатель SEO-in показывает

вероятность того, что сайт продвигается с помощью платных ссылок. Сайты с высоким

показателем SEO-in – это чаще всего коммерческие ресурсы, которые используют

чтобы

Документ, ссылающийся на сайты разных тематик,

политематичных документов, имеющих исходящие ссылки с высоким показателем

посева документов (3 миллиона). Показатели SEO-out и SEO-in высчитываются

Рис. 1. Вычисление показателя SEO-in на основе значений SEO-out первоначального

2.4 Классификатор SEO-link

SEOlink = l1×SEOtext + l2×SEOin + l3×SEOout + … (2)

3.Результаты

2.

4.Заключение

Литература

[1] Kleinberg, J (1997) Authoritative sources in a hyperlinked environment Journal of the ACM 46 (5): 604–632.

[2] T. H. Haveliwala. Topic-sensitive pagerank. In Proc. 11th International WWW Conference, pages 517-526, 2002

[3] Laffert y J., Zhai, C. Document language models, query models, and risk minimization for IR. In Proceedings of SIG IR -2001, pp 111-119

[4] K Bharat and M R Henzinger, Improved algorithms for topic distillation in a hyperlinked environment, Proc. 21st Annual International ACM SIGIR, pp.104–111, 1998.

[5] B. Wu and B. Davison. Undue influence: Eliminating the impact of link plagiarism on web search rankings Technical report, LeHigh Universit y, 2005

[6] Yasuhito Asano, Yu Tezuka, Takao Nishizeki Improvement of H ITS algorithms for spam links APWeb/WAIM 2007, LNCS 4505, pp 479-490, 2007.

[7] S. Chakrabarti. Integrating the Document Object Model with Hyperl inks for Enhanced Topic Distillation and Information Extraction ACM 1-58113-348-0/01/0005, 2001

Нейросетибесплатно

Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.