Этот индекс сортируется в алфавитном порядке по поисковому запросу с каждой записью индекса хранения список документов, в которых появляется термин и место в тексте, где это происходит. Эта структура данных позволяет быстрый доступ к документам, которые содержат термины запроса пользователя. Для повышения производительности поиска игнорирует Google (не индексирует) общие слова, называемые стоп-слова (такие как, это, на, или, из, как, почему, а также некоторых одиночные цифры и буквы).
Стоп слова так часто, что они мало, чтобы сузить поиск, и, следовательно, они могут быть безопасно отбрасываются. Индексатор также игнорирует некоторые знаки препинания и множественные пробелы, а также преобразование всех букв в нижнем регистре, чтобы улучшить производительность Google. 3. Google, процессор запросов Процессор запросов состоит из нескольких частей, в том числе пользовательский интерфейс (поиска), "двигателем", который оценивает запросы и сравнивает их с соответствующими документами, и результаты форматирования. PageRank является система Google для ранжирования веб-страниц.
Страница с более высоким PageRank в считается более важным и, скорее всего, будет перечисленных выше страницы с более низким PageRank. Google считает более ста факторов в вычисления PageRank и определения, какие документы являются наиболее актуальными для запроса, в том числе популярности странице, положение и размер поисковых терминов в пределах страницы, и близость поисковых терминов друг с другом на странице. Google также применяет методы машинного обучения для автоматического повышения своей эффективности, изучая отношения и ассоциации в пределах сохраненных данных.
Например, написание коррекции система использует такие методы, чтобы выяснить, вероятно, альтернативные варианты написания. Google тесно охраняет формулы, которые он использует для расчета актуальность; они переделаны, чтобы улучшить качество и производительность, и, чтобы перехитрить последние коварные методы, используемые спамерами. Индексация полный текст в Интернете позволяет Google, чтобы