Contact us in messengers or by phone.

whatsapp telegram viber phone email
+79214188555

Yandex has developed real-time data mining technology

ИнфоПоиск

Информационная поддержка
Staff member
Private access level
Full members of NP "MOD"
St. Petersburg section IAPD
Joined
Oct 30, 2009
Messages
594
Reaction score
27
Points
108
Age
72
Location
Россия, Санкт-Петербург
Website
o-d-b.ru
Yandex has developed real-time data mining technology

Yandex has developed and implemented a new search technology that allows you to find completely fresh documents - minutes after they appear on the Internet.

Quite a lot of search queries (from 2% on calm days to 8% on important events) are devoted to events that happened recently. By asking these queries, users expect to find documents that have just been created. To respond well to such requests, Yandex, firstly, learned to identify them among the general stream, and secondly, introduced a new search robot - Orange. Orange works in real time. He knows how to find fresh documents as soon as they appear on the Internet, index them and upload them to search engines in just a few seconds.

Some Internet sites are not updated very often, but on others - for example, on news resources - new documents are constantly being created. Orange bypasses such sites and adds new documents to the search as they appear, without delay.

To determine if fresh information is needed in response to certain requests, Yandex has developed several detectors. They analyze a variety of information - for example, the topic of media reports or the growth in the number of search queries on a particular topic.

Recall that about six months ago, similar real-time systems were also introduced on the search engines Google and Microsoft Bing.

“There is more and more real-time information on the Internet that people need right now. And we want to give them the opportunity to find it right now, ”says Fedor Romanenko, search quality manager. - This is only the first step, of course, we will improve the quality of search for news queries and further. New technology makes it possible to do this relatively easily. "

Orange robot and real-time search technology were developed by specialists from Yandex.Labs, the company's California office, in collaboration with developers from the Moscow office.

According to the company's blog, Orange learns the link structure of the Internet. To do this, it is enough for him to download and crawl only part of the "old" pages - albeit quite large. The knowledge gained allows Orange to detect almost all new pages, choose from at least a huge number of all of them at least some interesting pages and instantly calculate link ranking factors for them. Following the robot, Orange documents are processed by Real-Time search - it picks up the selected documents, indexes them and puts them into the search in seconds.

"With the help of Orange, we have achieved a significant improvement in the freshness of the base. In the future we will make it even more aggressive: Orange will use all available sources of information about changes on the Internet and respond to these changes instantly," they say in Yandex.

Orange Crawler cluster is implemented as a distributed computing system: hundreds of small tasks are simultaneously performed on each machine, the results of their work in the form of small asynchronous messages are sent to other machines. The entire cluster today processes more than 100,000 messages per second. Such an architecture eliminates delays in processing Real-Time information.
mobus.com
 
Original message
Яндекс разработал технологию поиска данных в реальном времени

Компания Яндекс разработала и внедрила новую поисковую технологию, которая позволяет находить совсем свежие документы — через минуты после их появления в интернете.

Достаточно много поисковых запросов (от 2% в спокойные дни до 8% в дни важных событий) посвящено событиям, которые случились совсем недавно. Задавая эти запросы, пользователи ожидают найти в том числе и документы, которые были созданы только что. Чтобы хорошо отвечать на такие запросы, Яндекс, во-первых, научился выявлять их среди общего потока, и во-вторых, внедрил нового поискового робота — Orange. Orange работает в режиме реального времени. Он умеет находить свежие документы, как только они появились в интернете, индексировать их и выкладывать на поисковые сервера буквально за несколько секунд.

Некоторые сайты интернета обновляются не очень часто, а на других — например, на новостных ресурсах — новые документы создаются постоянно. Orange обходит такие сайты и добавляет новые документы в поиск по мере их появления, без задержек.

Чтобы определять, нужна ли свежая информация в ответ на те или иные запросы, Яндекс разработал несколько детекторов. Они анализируют самую разную информацию — например, тематику сообщений в СМИ или рост количества поисковых запросов по той или иной теме.

Напомним, что около полугода назад подобные системы реального времени были внедрены также на поисковиках Google и Microsoft Bing.

«В интернете сейчас все больше real-time информации, которая нужна людям прямо сейчас. И мы хотим дать им возможность находить её прямо сейчас, — говорит Федор Романенко, менеджер качества поиска. — Это только первый шаг, конечно, мы будем улучшать качество поиска по новостным запросам и дальше. Новая технология дает возможность делать это сравнительно легко».

Робот Orange и технология поиска в реальном времени были разработаны специалистами из Yandex.Labs — калифорнийского офиса компании — в сотрудничестве с разработчиками из московского офиса.

Как говорится в блоге компании, Orange познает ссылочную структуру интернета. Для этого ему достаточно скачивать и переобходить только часть «старых» страниц — хоть и достаточно большую. Полученные знания позволяют Orange обнаруживать почти все новые страницы, выбирать из огромного их количества все хоть сколько-нибудь интересные и мгновенно рассчитывать для них ссылочные факторы ранжирования. Вслед за роботом Orange документы обрабатывает Real-Time поиск — он подхватывает выбранные документы, индексирует их и за секунды выкладывает на поиск.

"С помощью Orange мы достигли значительного улучшения свежести базы. В будущем мы сделаем его еще более агрессивным: Orange будет использовать все доступные источники информации об изменениях в интернете и реагировать на эти изменения мгновенно", - говорят в Яндексе.

Кластер Orange Crawler реализован как распределенная вычислительная система: на каждой машине одновременно выполняются сотни небольших задач, результаты их работы в виде маленьких асинхронных сообщений отправляются на другие машины. На всем кластере сегодня обрабатывается более 100 000 сообщений в секунду. Подобная архитектура позволяет исключить задержки при обработке Real-Time информации.
mobus.com

Матушкин Андрей Николаевич

Президент IAPD
Staff member
Private access level
Full members of NP "MOD"
Joined
Jan 1, 1970
Messages
21,436
Reaction score
3,531
Points
113
Age
52
Location
Россия,
Website
o-d-b.ru
Thank!
 
Original message
Спасибо!