Критерий SeoRank для определения основного контента веб-страниц

воскресенье, 30 мая 2010, Александр Краковецкий

Предыдущие части:

  • Внедрение семантических данных в HTML (блог)
  • Очищаем веб-страницы от информационного шума (блог)
  • Об информационном поиске, нахождении оптимальных путей просмотра результатов поиска и многом другом (блог)
  • Web page content analysis with «SmartBrowser» (блог)

В продолжении рассмотрим новую метрику для повышения точности модели важности информационных блоков сайтов.

Вкратце опишу, что мы имеем на данный момент. У нас есть разработанная модель для определения важности информационных блоков — т.е. определения, какой блок является основным контентов, а какой — информационным шумом. Задача стояла как найти некий дополнительный («убийственный») критерий, который поможет определить тип информационного блока.

На помощь пришли правила SEO и следующие соображения: как правило, все метаданные страницы относятся к основному контенту, а именно название страницы (title), ключевые слова (meta keywords) и описание (meta description).

Рассмотрим метаинформацию статьи «Goodbye, Google Buzz — PCWorld», которая была выбрана случайным образом:


Goodbye, Google Buzz - PCWorld




  





* This source code was highlighted with Source Code Highlighter.


Видим, что и title, и keywords, и description в большей мере представлены в теле основного контента.

Было использовано несколько параметров, а именно:

  • релевантность заголовка веб-страницы (title) к тексту информационного блока;
  • релевантность ключевых слов веб-страницы (meta keywords) к тексту информационного блока;
  • релевантность слов с описания веб-страницы (meta description) к тексту информационного блока;
  • релевантность заголовков веб-страницы (headers) к тексту информационного блока;

Конечно, список можно продолжать, но выполненные расчеты показали, что и этих параметров более менее достаточно.

Сам SeoRank будем считать как сумму a*r, где a — вес параметра, r — значение параметра, сумма весов равна 1.

Ну и, собственно, результаты исследований:

  • среднее значение SeoRank для блоков с основным контентом: 0.91
  • среднее значение SeoRank для всей страницы: 0.84
  • среднее значение SeoRank для всех блоков с не основным контентом: 0.42 (таким образом SeoRank для отдельных блоков будет еще меньше)
  • процент веб-страниц, для которых значение SeoRank для блоков с основным контентом максимальное: 94%

Для исследования использовались статьи PCWorld, Хабрахабр, BBC и других известных новостных ресурсов.

Таким образом, использование критерия SeoRank является хорошим способом увеличить точность модели и получить более точные результаты при процессе фильтрации информационного шума.

Замечания и предложения принимаются. Спасибо за внимание!


Ищите нас в интернетах!

Комментарии

Свежие вакансии