Одна из нерешенных проблем современных поисковых систем
Мы привыкли получать 100% (ну или 99%) релеватную информацию на первой же странице поиска. Это происходит потому, что современная поисковая система - это сочетание алгоритмов поиска, data mining, эвристик и т.д. Но, на мой взгляд, интернет уже набрал "критическую массу" веб-ресурсов, из-за чего необходимо пересмотреть отношение к релевантности.
Пример, показанный ниже, в большей степени относится к новостному контенту, но также в ряде случаев проявляется для других типов контента.
Рассмотрим результаты поиска по запросу "Пассажиры избили нескольких сотрудников "Аэрофлота" в "Шереметьево"":
Google:
Bing:
Яндекс:
Как вы видите, результаты поиска на первой странице всех поисковых систем показывают 100% релевантность запросу, но! Для меня, как пользователя этот список результатов - избыточен, так как 90% информации на всех сайтах дублируется.
Здесь есть две проблемы:
- Полное дублирование новости.
- Частично измененный текст новости (но суть та же).
Обе эти проблемы досточно хорошо изучены, и, по крайней мере, первая проблема может быть решена однозначно. Вторая проблема - вопрос исследовательский, но тем не менее, уже сейчас можно распознавать нечеткие дубликаты с достаточно большой долей вероятности (> 80%).
Теперь рассмотрим другой вопрос: должна и поисковая система брать на себя отвесттвенность и специально не показывать релевантный контент? Я считаю, что должна, так как задача ПС - найти информацию, на изучение которой пользователь потратит минимум времени. Сейчас же время поиска необходимой инфрмации очень велико именно за счет перебора всех "дубликатов". Как вариант, можно оформить эти результаты в виде дополнительной ссылки (аля "похожие результаты", "еще результаты с этого сайта"), но не показывать их в общей ленте.
А вы как считаете?