Google работает на распределенной сети тысяч недорогих компьютеров и, следовательно, может осуществить быстрый параллельную обработку. Параллельная обработка является метод расчета, в котором многие расчеты могут быть выполнены одновременно, значительно ускорить обработку данных. Google имеет три различных частей: 1. Googlebot, веб-сканер, который обнаруживает и извлекает веб-страниц. 2. индексатор, что сортирует каждое слово на каждой странице и сохраняет результирующий индекс слов в огромной базе данных. 3.
Процессор запросов, который сравнивает поисковый запрос, чтобы индекс и рекомендует те документы, которые он считает наиболее актуальными. Давайте внимательнее посмотрим на каждую часть. 1. Робот Google, веб-компании Google Гусеничный робот Google является веб-ползет робот Google, которая находит и извлекает страницы в Интернете и вручает их к индексации Google. Это легко представить, Googlebot, как маленький паук снующих по пряди киберпространстве, но в действительности робот Google не пройти Интернет вообще.
Он действует так же, как в веб-браузере, отправив запрос на веб-сервер для веб-страницы, загружать всю страницу, а затем передав его в индексации Google. Робот Google состоит из многих компьютеров, запрашивающих и получения страницы гораздо быстрее, чем вы можете с вашим веб-браузером. На самом деле, робот Google может запросить тысячи разных страницах одновременно. Чтобы избежать подавляющего веб-серверов, или вытеснение запросы от человека пользователей, робот Google намеренно делает запросы каждого отдельного веб-сервера более медленно, чем это способны делать.
Робот Google находит страницы двумя способами: через форму добавить сайт, www.google.com/addurl.html, и посредством нахождения ссылки от сканирования Интернета. К сожалению, спамеры выяснили, как создавать автоматизированные ботов, которые бомбардировали добавить форму URL с миллионами URL-адресов, указывающих на коммерческой пр