Интернет, 9 июля 2003. Сегодня радикально преобразилась служба Яндекс.Новости. Пользователям представлен совершенно новый сервис: объединение содержательно близких новостей в сюжеты и выделение главных тем дня. Одновременно Яндекс.Новости стали мультимедийным проектом: на сайте представлены не только тексты, но и фото-, аудио- и видеофайлы.
Обработка и систематизация новостей происходят автоматически — Яндекс не производит собственные новости, а беспристрастно отражает информационную картину дня. Алгоритмы анализа и ранжирования данных — оригинальная разработка Яндекса, основанная на определении текстуальной близости и кластеризации информационных потоков.
«Теперь сайт выполняет функцию зеркала СМИ, отражающего актуальное состояние российского медиа-пространства, — говорит Дмитрий Иванов, руководитель службы Яндекс.Новости. — Пользователи смогут мгновенно составить представление о главных темах дня, сравнить изложение одной и той же новости различными изданиями, а также проследить сюжет в его развитии».
Сегодня на news.yandex.ru найдутся новости практически всех центральных средств массовой информации, представленных в интернете. Среди партнеров Яндекса — информационные агентства, электронные версии печатных СМИ, сетевые издания, сайты телеканалов и радиостанций, тематические издания. В концу лета планируется подключить к проекту также специализированные и региональные ресурсы.
Новый сервис рассчитан как на массовую, так и на профессиональную аудиторию. Каждый посетитель главной страницы портала www.yandex.ru или пользователь почты Яндекса всегда будет видеть пять главных новостей, заголовки которых обновляются в режиме реального времени. Появилась также возможность отдельно просмотреть все тексты, фотографии, аудио- и видеофайлы, входящие в сюжет.
Изменился и формат результатов поиска по новостям. Теперь, задавая запрос в Яндекс.Новостях, пользователь получит новости, сгруппированные по темам. Для профессионалов по-прежнему бесплатно доступны подписки на новости по ключевым словам. Число сервисов для профессиональной аудитории будет увеличиваться.
Для средств массовой информации участие в партнерской программе Яндекс.Новостей — возможность увеличения посещаемости и постоянного расширения аудитории издания. Яндекс стремится наиболее полно отразить в своем «зеркале» информационное пространство России и приглашает к сотрудничеству все профессиональные СМИ.
Как работает "зеркало СМИ"
От разработчиков Яндекс.Новостей
Яндекс.Новости открылись три года назад, в июне 2000 года. Тогда поиск происходил по сообщениям пятнадцати источников. Новости собирались роботом через короткие промежутки времени, сразу же индексировались, раскладывались по тематическим рубрикам и одновременно включались в поиск на www.yandex.ru. Помимо оформления отдельного сервиса – поиска по новостям на news.yandex.ru, результатом разработки 2000 года стало включение заголовков новостей в параллельный поиск на www.yandex.ru. Целью этого проекта был сервис, предоставляющий широкой аудитории пользователей оперативный доступ к политическим, культурным и спортивным новостям.
Постановка задачи
Насыщение российского интернета новостной информацией (к 2003 году в Яндекс.Новостях осуществлялся поиск по сообщениям более сотни источников) требовало дополнить существующий сервис – поиск по новостям – еще одним, сутью которого должно было стать выделение и представление главного в этом увеличившемся потоке информации.
Краткое и емкое представление главных новостей дня на этот час – так была сформулирована задача в разработке новой версии Яндекс.Новостей. Размышляя о возможных алгоритмах анализа новостного потока, мы поняли, что необходимо научиться, во-первых, находить и соединять сообщения на одну тему, а, во-вторых, упорядочивать сообщения по важности – для того, чтобы общественно значимые события последних нескольких часов или всего дня оказывались бы максимально экспонированы.
Принципиально важно было также сохранить технологический, "сервисный" подход первой версии news.yandex.ru, характерный и для Яндекса в целом. Подход, предполагающий создание автоматического сервиса, где исключена ручная редакторская работа. Таким образом, мы хотели дистанцироваться от производства собственного контента и от собственной точки зрения, а, кроме того, не брать на себя ответственность за опечатки, ошибки и прочие возможные недостатки анализируемого материала.
Проблемы
Взявшись за эту задачу, мы осознавали, с какими трудностями нам придется столкнуться. Прежде всего, сообщения различных СМИ весьма разнородны по стилю, объему, периодичности и другим параметрам предоставляемых данных: в числе партнеров Яндекс.Новостей - информационные агентства широкого профиля, электронные версии печатных СМИ, сетевые издания, сайты телеканалов и радиостанций, тематические, специализированные и региональные ресурсы.
Кроме большого разнообразия в форматах, надо учитывать особенности механизма распространения информации - копирование и обильное цитирование. Отдельной проблемой для анализа текстуального содержимого являются сообщения типа дайджестов или обзоров.
Тем не менее, каждый факт включения новости в информационный поток, совершаемый редактором в соответствии с редакционной политикой издания, может свидетельствовать об интересе медиа-сообщества к данной теме и потому учитывается в анализе.
Кроме того, было интересно попробовать учесть запросы пользователей поисковой системы как важный фактор «потребительского спроса» на новости.
Как мы собираем сюжет?
Центральная задача, которая стояла перед нами — научиться отождествлять cообщения, относящиеся к одному и тому же сюжету. Очевидно, что эта задача лучше всего решается анализом текста и поиском максимально похожих документов.
Для определения попарной текстуальной близости сообщений мы использовали модифицированный для небольших однородных текстов алгоритм поиска похожих документов и алгоритм нечеткого поиска по кворуму. Как и любой поиск Яндекса, этот алгоритм работает с учетом морфологических вариантов русских и английских слов, причем для агнонимов (то есть «неизвестных системе слов»), составляющих в Яндекс.Новостях значительную часть словника, используется методика нахождения ближайших морфологических эквивалентов. Для частичного снятия морфологической омонимии в Яндекс.Новостях используются статистические эвристики.
Затем матрица попарной близости обрабатывалась алгоритмом кластеризации с тщательно подобранным радиусом. Для того, чтобы увеличить связность крупных сюжетов, мы дополнительно использовали кластеризацию второго уровня, собирая атомарные кластеры в более крупные. Такой алгоритм дает полноту около 85-90% (то есть не более 15% сообщений ошибочно не попадают в сюжеты) и обеспечивает точность около 95% – в сюжетах редко встречаются сообщения на другие темы.
Отдельной задачей стало оптимальное представление и аннотирование сюжета: выбор наилучшего заголовка (зависит от его длины, свежести и максимального соответствия теме) и "цитатной" аннотации, необходимой для короткого и точного описания сюжета. Кроме того, в новой версии Яндекс.Новостей появилась группировка по сюжетам не только текстовых сообщений, но и фото-, аудио- и видеофайлов.
Как мы ранжируем сюжеты?
Основные факторы, влияющие на ранжирование – свежесть и размер сюжета. Под свежестью понимается время публикации новостей в сюжете: первой, последней, среднее и т.п., а также время для каждого атомарного кластера. Размер сюжета отражает общий интерес СМИ к конкретной теме, при этом учитывается общее число сообщений в сюжете, а также количество и схожесть сообщений от конкретных изданий. Кроме того, использовался глобальный анализа сходства, позволяющий, в частности, находить интернет-издания с высокой степенью текстуального пересечения и учитывать этот фактор в ранжировании сюжетов.
Кроме того, интересным для ранжирования фактором оказался «интерес пользователей поисковой системы». По состоянию на май-июнь 2003 года пользователи Яндекса набирают в строке поиска около 4-5 миллионов запросов в день, что для обычной дневной загрузки составляет около 100 тысяч запросов в пятнадцатиминутный интервал. Эта статистика достаточна для того, чтобы учитывать аномально частотные запросы в ранжировании сюжетов в Яндекс.Новостях.
Общий подход к определению аномальности частотных запросов совпадает с подходом вычисления НИНИ-индекса (Непостянство Интересов Населения Интернета) запущенного как пользовательский сервис на Яндексе еще в 1998 году.
Таким образом, на ранжирование суммарно влияют следующие факторы: свежесть сюжета, его размер, а также интерес пользователей.
Как теперь выглядят новости?
На www.yandex.ru представлены пять главных новостей дня на этот час, на news.yandex.ru - эти же новости с цитатными аннотациями, а также еще 10 новостей, следующих по важности. Функция главной страницы Яндекс.Новостей – лаконичное представление информационной картины дня, поэтому мы постарались сделать страницу компактной и легкой, без графики, так, чтобы пользователь мог быстро составить представление об актуальных событиях. Так же просто оформлены и страницы рубрик.
На странице сюжета представлены отобранные по содержательной близости новости различных источников, отсортированные в хронологическом порядке. Пользователь имеет возможность просмотреть текстовые сообщения, фотографии, аудио- и видеофайлы, входящие в сюжет. Важной особенностью новой версии Новостей является аннотирование сюжета – выделение заголовка и аннотации к сюжету в целом.
По умолчанию на странице сюжета показывается 30 заголовков, есть также возможность просмотреть все новости сюжета с аннотациями.
Как мы представляем результаты поиска?
Все алгоритмы – составления сюжетов, их аннотирования и ранжирования – были оптимизированы и встроены в поиск по новостям, а также в параллельный поиск на www.yandex.ru.
Теперь, задавая запрос в Яндекс.Новостях, пользователь получит не просто список сообщений, отсортированый по времени с учетом приоритетов точного совпадения. Отныне все сообщения в результатах поиска сгруппированы по сюжетам, при этом ранжирование построено на стандартных для Яндекса принципах ранжирования сгруппированной выдачи. Оно основано на числе и ранге всех найденных новостей внутри новостных сюжетов, при этом ранг одной новости определяется как ее свежесть с учетом приоритетов строгого текстуального совпадения. Естественно, мы оставили и иногда полезную возможность «плоской», разгруппированной выдачи, отсортированной по времени.
Необходимо отметить, что новости, не попавшие ни в один сюжет, рассматриваются и ранжируются как сюжет, состоящий из одной новости, то есть у них есть все шансы оказаться в поисковой выдаче на первом месте.
Что же получилось?
Не нам судить, насколько удачными оказались выбранные решения, насколько качественно решена поставленная нами задача: объективно и беспристрастно отразить актуальный новостной поток, выделить в нем наиболее значимые и интересные сюжеты. Можно лишь отметить, что это первая попытка такого рода, предпринятая в российском интернете. Надеемся, что наш полностью автоматический сервис — «краткое и емкое изложение главных новостей дня» — окажется востребован пользователями.