Критерий SeoRank для определения основного контента веб-страниц
Предыдущие части:
- Внедрение семантических данных в HTML (блог)
- Очищаем веб-страницы от информационного шума (блог)
- Об информационном поиске, нахождении оптимальных путей просмотра результатов поиска и многом другом (блог)
- Web page content analysis with «SmartBrowser» (блог)
В продолжении рассмотрим новую метрику для повышения точности
модели важности информационных блоков сайтов.
Вкратце опишу, что мы имеем на данный момент. У нас есть разработанная
модель для определения важности информационных блоков — т.е.
определения, какой блок является основным контентов, а какой —
информационным шумом. Задача стояла как найти некий дополнительный
(«убийственный») критерий, который поможет определить тип
информационного блока.
На помощь пришли правила SEO и следующие соображения: как правило, все
метаданные страницы относятся к основному контенту, а именно название
страницы (title), ключевые слова (meta keywords) и описание (meta
description).
Рассмотрим метаинформацию статьи «Goodbye,
Google Buzz — PCWorld», которая была выбрана случайным образом:
Goodbye, Google Buzz - PCWorld
* This source code was highlighted with Source Code Highlighter.
Видим, что и title, и keywords, и description в большей мере
представлены в теле основного контента.
Было использовано несколько параметров, а именно:
- релевантность заголовка веб-страницы (title) к тексту информационного блока;
- релевантность ключевых слов веб-страницы (meta keywords) к тексту информационного блока;
- релевантность слов с описания веб-страницы (meta description) к тексту информационного блока;
- релевантность заголовков веб-страницы (headers) к тексту информационного блока;
Конечно, список можно продолжать, но выполненные расчеты показали,
что и этих параметров более менее достаточно.
Сам SeoRank будем считать как сумму a*r, где a — вес
параметра, r — значение параметра, сумма весов равна 1.
Ну и, собственно, результаты исследований:
- среднее значение SeoRank для блоков с основным контентом: 0.91
- среднее значение SeoRank для всей страницы: 0.84
- среднее значение SeoRank для всех блоков с не основным контентом: 0.42 (таким образом SeoRank для отдельных блоков будет еще меньше)
- процент веб-страниц, для которых значение SeoRank для блоков с основным контентом максимальное: 94%
Для исследования использовались статьи PCWorld, Хабрахабр, BBC и
других известных новостных ресурсов.
Таким образом, использование критерия SeoRank является хорошим способом
увеличить точность модели и получить более точные результаты при
процессе фильтрации информационного шума.
Замечания и предложения принимаются. Спасибо за внимание!