Одна из нерешенных проблем современных поисковых систем

вторник, 28 декабря 2010, Александр Краковецкий

Мы привыкли получать 100% (ну или 99%) релеватную информацию на первой же странице поиска. Это происходит потому, что современная поисковая система - это сочетание алгоритмов поиска, data mining, эвристик и т.д. Но, на мой взгляд, интернет уже набрал "критическую массу" веб-ресурсов, из-за чего необходимо пересмотреть отношение к релевантности.

Пример, показанный ниже, в большей степени относится к новостному контенту, но также в ряде случаев проявляется для других типов контента.

Рассмотрим результаты поиска по запросу "Пассажиры избили нескольких сотрудников "Аэрофлота" в "Шереметьево"":

Google:

Bing:

Яндекс:

Как вы видите, результаты поиска на первой странице всех поисковых систем показывают 100% релевантность запросу, но! Для меня, как пользователя этот список результатов - избыточен, так как 90% информации на всех сайтах дублируется.

Здесь есть две проблемы:

  1. Полное дублирование новости.
  2. Частично измененный текст новости (но суть та же).

Обе эти проблемы досточно хорошо изучены, и, по крайней мере, первая проблема может быть решена однозначно. Вторая проблема - вопрос исследовательский, но тем не менее, уже сейчас можно распознавать нечеткие дубликаты с достаточно большой долей вероятности (> 80%).

Теперь рассмотрим другой вопрос: должна и поисковая система брать на себя отвесттвенность и специально не показывать релевантный контент? Я считаю, что должна, так как задача ПС - найти информацию, на изучение которой пользователь потратит минимум времени. Сейчас же время поиска необходимой инфрмации очень велико именно за счет перебора всех "дубликатов". Как вариант, можно оформить эти результаты в виде дополнительной ссылки (аля "похожие результаты", "еще результаты с этого сайта"), но не показывать их в общей ленте.

А вы как считаете?


Ищите нас в интернетах!

Комментарии

Свежие вакансии