форум волчат  

Рамблер поиск - поисковая система Рамблер (поисковая система Рэмблер) - FAQ по поиску в поисковой системе Рамблер - Интернет-реклама и раскрутка сайтов (реклама сайтов запрещена) - бесплатно
 РегистрацияРегистрация   ВходВход 
Сделать стартовой Добавить в избранное Николай Попков Правила форума
Вход в чаты: чат волчат и чат знакомств (если нет регистрации в чатах, то пароль не нужен):
Ник в чате: Пароль:
Ник в чате: Пароль:

Cайт знакомств Holiday.Ru - 12360781 анкет:

Я ищу от до лет, из города

Реальные бесплатные знакомства в твоем городе:

Я ищу от до лет, в регионе

Рекламное агентство Реклама SU - контекстная реклама и продвижение сайтов с оплатой за результат
Форум Раскрутка сайта и форум Маркетинг и реклама. Чаты. Shot.Su - игровой сервер CSS и CS
Сонник. Анекдоты. Приметы. Aфоризмы. Тосты.

Баннерная сеть ClickHere
Рамблер поиск - поисковая система Рамблер (поисковая система Рэмблер) - FAQ по поиску в поисковой системе Рамблер

 
   Список форумов волчат -> Интернет-реклама и раскрутка сайтов (реклама сайтов запрещена)
Форум Раскрутка сайтов  
Автор Сообщение
masterОффлайн
Admin
Зарегистрирован: 28.04.2003
Всего сообщений: 1535
Откуда: Волгоград
Возраст: 56
Пол: Мужской
23 Сен 2003 Вт 03:17   Рамблер поиск - поисковая система Рамблер (поисковая система Рэмблер) - FAQ по поиску в поисковой системе Рамблер

Рамблер - поиск на Рамблере - поисковая система Рамблер (поисковая система Рэмблер) - FAQ по архитектуре поиска в поисковой системе Рамблер

На этой странице собраны ответы на наиболее частые вопросы по новой архитектуре поиска на Рамблере.
Можно ли говорить, если пользоваться терминологией программистов, об очередной номерной версии поисковой системы?

Здесь надо сделать небольшой экскурс в историю.

Первая версия поисковой машины появилась на Рамблере в 1996 году, семь лет назад. На протяжении следующих четырех лет в компании Рамблер непрерывно развивали и совершенствовали поиск. Однако к 2000 году команда разработчиков приняла решение переписать Рамблер "с чистого листа", поскольку добавлять новые функции в первую версию Рамблер стало очень сложно. В самом начале 2001 года новая, вторая по счету, версия поиска в поисковой системе Рамблер была запущена в эксплуатацию. Ядро поисковой системы Рамблер было изначально спроектировано многоязычным и расширяемым, с возможностью встраивания специализированного лингвистического программного обеспечения, причем поддержка русского и английского языков была встроена сразу. Также были реализованы группировка по сайтам, формирование цитат наиболее релевантных фрагментов документов, поиск фраз и алгоритмы ранжирования, опирающиеся прежде всего не на общее количество, а на кучность вхождений, т. е. учитывающие расстояния между словами.

С самого начала эта версия поисковой системы Рамблер проектировалась для параллельной работы на нескольких серверах. Первой распределенной компонентой в поиске стал индексатор - программа, которая анализирует HTML-страницы и формирует из них базу данных поисковой машины. Индексатор Рамблера разбивал всю информацию на небольшие части и обрабатывал их параллельно на всех имеющихся серверах, объединяя затем результаты в общий, "монолитный" индекс.

Вторая распределенная компонента поиска - робот поисковой системы Рамблер. В 2002 году в Рамблере запустили нового робота, который способен работать одновременно на нескольких компьютерах и параллельно скачивать данные со всей русской части Интернета.

В этом году мы разделили поисковую базу поисковой системы Рамблер на части; таким образом, распределенными стали все компоненты поисковой машины. Само разделение произошло в июне 2003 года, затем несколько месяцев команда разработчиков занималась интеграцией индексатора, робота и нового поискового модуля. В середине лета была запущена "быстрая" база, состоящая из страниц, на которых размещен счетчик Top100. В августе поисковый индекс Рамблера стал обновляться несколько раз в неделю, а быстрая база - два раза в день. Сейчас, в сентябре, работы по интеграции завершены, и теперь поиск Рамблера стал полностью распределенным.

Сегодняшнаяя версия поиска качественно отличается от той, которая была в 2001 году - она "умеет" пополнять бау несколько раз в день, в ней есть параллельная обработка поисковых запросов. Поэтому можно считать, что это - новая версия поисковой машины.

Верно ли, что разработчики Рамблера, хоть и не говоря об этом прямо, прибегли к использованию кластерной технологии?

Формально говоря, кластер - это группа компьютеров, которая управляется как одно целое. Обычно в кластере любую работающую программу можно свободно перемещать с одного компьютера (узла кластера) на другой, не останавливая. В некоторых видах кластеров программы даже имеют возможность читать данные из памяти любого узла. С этой точки зрения поисковой системы Рамблер не является кластерной, так как каждый сервер работает независимо от остальных, обращаясь только к своей памяти и своей дисковой подсистеме. Мы предпочитаем называть нашу систему распределенной.

Насколько надежно работает новая архитектура поисковой системы Рамблер ?

В ходе разработки мы уделяли вопросам надежности очень много внимания. Основная поисковая база сейчас разбита на 7 частей, а каждая часть продублирована 11 раз. Мы называем 7 частей базы цветами. Соответственно, первая часть - красная, вторая - оранжевая, затем желтая, зеленая, голубая, синяя и фиолетовая. При необходимости индексная база может быть разбита на большее число частей (цветов).

Каждый раз, когда пользователь подает поисковой системы Рамблер запрос, поисковая машина выбирает по одной машине каждого цвета, посылает запрос на них, получает результаты, объединяет их и формирует ответную страницу. В случае аварии на каком-нибудь из серверов рядом всегда есть еще 10 машин того же цвета, которые возьмут на себя весь поток запросов. Поэтому в случае аварии цвета не "выпадают" из результатов поиска. За устойчивостью и скоростью поиска следит специальная программа - балансировщик нагрузки, которая выбирает для обработки каждого запроса 7 наименее загруженных серверов каждого цвета так, чтобы ни один сервер Рамблера не получил слишком большого количества запросов, а запрос был вычислен максимально быстро.

Есть ли изменения в базовых алгоритмы поиска и ранжирования?

В новой версии поисковая система Рамблер стала значительно точнее обрабатывать запросы, содержащие специальные символы, такие, например, как C++, C# или технология .NET.

На каком оборудовании работает поисковая система Рамблер?

Сейчас поиск Рамблера работает на 97 серверах:

77 серверов поисковой системе Рамблер вычисляют поисковые запросы - это "цветные" поисковые индексы. Еще 8 серверов занимаются балансировкой нагрузки, объединением результатов поиска, составлением цитат и склеиванием дублей. За формирование ответной страницы отвечают еще 3 сервера. "Быстрая" база и подмешивание результатов поиска по Рамблер Top100 - это еще по 2 компьютера.

Робот поисковой системе Рамблер работает на 3 серверах. Формирование индексных баз каждого цвета идет каждую ночь параллельно на тех же 80 серверах, что и поиск, а затем специальный сервер выполняет объединение результатов и их публикацию. Последний из серверов в списке (но далеко не последний по важности) отвечает за формирование ссылочного индекса и вычисление коэффициентов популярности страниц.

Все компьютеры поисковой системе Рамблер имеют процессоры Intel или AMD и работают под управлением операционной системы FreeBSD.

Как часто происходит обновление серверов поисковой системе Рамблер ?

Одним из самых больших достижений поисковой системе Рамблер мы считаем то, что поисковая машина Рамблера может работать на очень дешевых серверах - каждый из них стоит как один "средний" настольный компьютер. Поэтому мы имеем возможность регулярно докупать машины и наращивать мощности. Последний раз мы добавили 35 серверов в августе 2003 года.

В поисковой системе Рамблер есть всего 2 сервера, в которых действительно необходим большой объем оперативной памяти и дисков, и мы собираемся заменить их процессоры на 64-битные.

Используется ли в поисковой системе Рамблер ссылочное ранжирование и алгоритм PageRank ™?

Осенью 2002 года поисковая система Рамблер стала рассчитывать для каждого документа коэффициент популярности. Данный коэффициент, как и алгоритм PageRank ™, основан на учете гиперссылок между страницами сети, однако наша реализация дополнительно использует данные о реальной посещаемости страниц, полученные от счетчика Top100. Дело в том, что "классические" ссылочные алгоритмы фактически учитывают мнение только одной категории пользователей сети - web-мастеров. Действительно, если большому количеству web-мастеров нравится тот или иной ресурс, они размещают на него ссылки. Обычные пользователи, как правило, созданием страниц и сайтов не занимаются, и поэтому учесть их мнение оказывается невозможно. Счетчик Рамблер Top100 как раз и предназначен для того, чтобы сделать коэффициент популярности более справедливым.

Весной 2003 года на Рамблере заработал и ссылочный поиск. Сейчас в выдаче поисковой машины наверх поднимаются те страницы, на которые есть гиперссылки с других станиц Сети, причем учитываются только ссылки, содержащие слова запроса.

Какое значение имеет поисковая система Рамблер среди других частей холдинга "Рамблер"?

Поисковая система Рамблер - самый посещаемый раздел портала, над ней работает больше всего разработчиков.

Какие преимущества дает сайтам участие в Рамблер Top100?

Во-первых, сайты, которые на всех своих страницах разместили счетчик Рамблер Top100, автоматически попадают в поле деятельности быстрой базы. Поисковая система Рамблер будет очень быстро находить новые страницы на таких сайтах.

Во-вторых, вычисление коэффициентов популярности устроено так, что Рамблер может точнее оценить "вес" каждой страницы сайта и не допустить, чтобы какая-нибудь малозначимая страница, на которую никто из пользователей никогда не заходит, получила необоснованно высокий вес, уменьшив при этом веса остальных страниц ресурса. Для сайтов, не участвующих в рейтинге, расчет ведется по некоторым усредненным параметрам, и поэтому коэффициент может отличаться от реальной популярности страницы среди пользователей Сети.

Что можно сделать, чтобы изменение структуры сайта быстрее отражалось в поиске Рамблера?

Робот поисковой системы Рамблер скачивает с каждого сайта от 200 до 3000 страниц в сутки. Поэтому для большинства сайтов Рамблер автоматически отследит изменение структуры в течние одной-двух недель. Если вы хотите обратить внимание робота Рамблер на ваш сайт - просто зарегистрируйте его в поисковой машине Рамблер еще раз.

От чего зависит периодичность обновления сайтов поисковой системой Рамблер?

Робот скачивает все страницы равномерно, частота переиндексации для разных страниц разная. Реже всего обновляются сайты, которые никто в поиске не находит. Для сайтов, которые представляют интерес для пользователей, обновление происходит чаще.

Раньше на Рамблере первые 5 результатов поиска брались из рейтинга Рамблер Top100. Используется ли Рамблер Top100 в поиске сейчас?

Мы по-прежнему "подмешиваем" ресурсы рейтинга Рамблер, в описании которых есть слова запроса, в результаты поиска, однако не помещаем их в первые позиции. Дело в том, что старый алгоритм, при котором ресурсы из Рамблер Top100 автоматически попадали наверх, приводил к злоупотреблениям со стороны некоторых web-мастеров, что не лучшим образом сказывалось на общем качестве поиска. Сейчас ресурсы Рамблер Top100 присутствуют в выдаче, чтобы пользователи могли найти всю интересующую их информацию, однако, если Рамблер нашел в основной базе страницы, которые лучше соответствуют запросу, Рамблер покажет их первыми.

Должен ли я регистрировать каждую страницу своего сайта в Рамблер Top100 по отдельности, чтобы они могли попасть в быструю базу?

Нет, делать этого не нужно. Вполне достаточно один раз зарегистрировать сайт в рейтинге Рамблера и разместить счетчик Рамблер на всех его страницах.

http://www.rambler.ru/doc/faq2.shtml

Рамблер - поиск на Рамблере - поисковая система Рамблер (поисковая система Рэмблер) - FAQ по архитектуре поиска в поисковой системе Рамблер
Вернуться к началу
View user's profile Посетить сайт автора 
Показать сообщения:   
смешные анекдоты и политика
форум женщин - женский форум
форум компьютерные игры
музыкальный форум
Бесплатные игры и чат знакомств
Сайты знакомств: Знакомство.su,
К, ML и серьезные знакомства для брака (подбор партнера по тестам).


Партнерка Яндекса

Замуж за рубеж: любовный маг, невеста



сервис ремонт фотоаппаратов

pr агентство Реклама SU, оптимизация сайтов, баннеры - баннерная сеть. Партнерские программы
Бесплатные сервисы для вас: Виртуальная клавиатура и транслит.
IP адрес - где узнать мой IP адрес? ip address

бесплатный форум


free forum