Основні засади роботи пошукових систем в Інтернеті. Як працюють пошукові системи? Робота з карткою в пошуковій системі

Для того, щоб успішно розкрутити свій сайт, просунути його в пошукових системах, необхідно мати хоча б загальне уявлення про роботу пошукових систем.

В Інтернеті одночасно існує багато мільярдів веб-сторінок (документів) і щодня це число зростає. Зрозуміло, що для того, щоб у такій величезній кількості знайти саме те, що Вам треба, є неймовірно складним завданням. Понад те, без спеціальних сервісів – пошукових систем, або машин – це завдання є практично нерозв'язним.

Як, коли та який павук прийде до Вас на сайт – це турбота самої пошукової системи. Ми можемо вплинути лише опосередковано, шляхом частої публікації. Але якою б високою не була частота публікацій на Вашому сайті, Ви ніколи не зможете зрівнятися з інформаційними ресурсами (типу ІТАР-ТАРС) або соціальними мережами (Facebook та ін.), де пошуковики буквально живуть.

Зате можна твердо стверджувати, що чим рідше Ви проводитиме публікації нового контенту на своєму сайті, тим рідше до Вас приходитиме Spider.

Ми можемо і маємо враховувати цей момент у своїй діяльності для вирішення тих чи питань. Зрозуміло, що посилання із соціальної мережі (що особливо належить самому пошуковику – Google+ або Я.ру) буде роботом пошукової системи виявлено найшвидше, але воно не зможе передати таку саму вагу, як посилання з найавторитетнішого ресурсу на Вашу тему.

Тому, якщо Вам потрібно, щоб Ваш сайт (або його сторінку) якнайшвидше знайшли пошукові системи, то Вам треба отримати посилання з інформаційних ресурсів, соціальних мережі т.п. А якщо Ви стурбовані «пузомірками» (PR та ТІЦ), то Вам потрібні зовсім інші посилання. Для того, щоб це Вам стало ясніше і Ви не припускалися стратегічних (саме так!) помилок, нам необхідно дізнатися, яким чином у пошукових систем видача і взагалі ранжування сторінок.

Висновок: пошукові системи надзвичайно складна та закрита структура, проте вебмайстру треба знати основні принципи її роботи

P.S. Знання цих основ допоможе Вам розкрутити будь-який сайт, наприклад, сайт, тема якого – феросиліцій. І навіть якщо Ви в самому феросиліції не дуже тямите. Зате Ви будете добре розуміти SEO.

Багато хто хоче опинитися в ТОПі, але далеко не всі розуміють, як працюють пошукові системи. А до рубежу 2017 року вимоги до сайтів з боку пошукових систем ще більш посилилися (докладніше у статті). Тому, щоб постійно бути в топі, для початку потрібно як мінімум розібратися як працюють пошукові алгоритми.

Дочитавши цю статтю до кінця, Ви розберетеся в тому, на яких принципах будується робота Яндекс і Google, дізнаєтесь трохи більше про mail, rambler та bing. При цьому ми не стосуватимемося факторів ранжування сайтів, т.к. це дуже об'ємний матеріал, що потребує окремої публікації.

Ну, або якщо хочете ціль, призначення або навіть місія пошукової системи це дати максимально точну відповідь користувачеві на його запит у вигляді списку посилань на різні ресурси.

Для того, щоб сформувати якісний список із сайтів, пошукова система створює базу даних. Тобто, якщо Ваш сайт або нова сторінка сайту не проіндексований Яндексом або Гуглом, то їх не буде в результатах пошуку. Базу даних із сайтів формують пошукові роботи, які повідомляють інформацію про сайти свого «босу», А той заносить дані до Реєстру. Наприклад, якщо ви зареєстрували свій сайт або , там можна знайти інформацію про те, скільки сторінок Вашого сайту проіндексувала пошукова система.

Далі весь реєстр даних зі сторінок численних сайтів ранжується за певними параметрами: регіон, релевантність запиту, популярність ресурсу, якості контентуі так далі. Як я вже й сказав, весь перелік факторів ранжирування ми розберемо у окремій публікації. Основним завданням при просуванні сайту стає саме вплив на ці фактори, з метою підняття сайту в ТОП.

Особливості та характеристики пошукових систем у 2018

Всі ми бачили рекламу Google про те, як пошукова система вступає в нерівну сутичку з бабусею щодо пошуку найближчої аптеки. Про що це каже? Про те, що пошукові системи навчаються і незабаром повністю перестануть працювати з ключовими словами і працюватимуть лише зі смислами. Т.к. це і є їхнім основним завданням не видати довільний список сайтів, а допомогти користувачеві в пошуку місця, товару чи послуги.

У нашій країні частка голосового пошукуще дуже незначно, але США вона займає близько 50% мобільного трафіку. А отже ця тенденція скоро торкнеться Росії. Відповідно, зросте кількість інформаційних запитів ( як, де, куди) та запитів, які неможливо передбачити, т.к. вони будуть не шаблонними та продиктовані ситуацією, в якій перебуває людина. Наприклад, він стоїть на перехресті і запитує, куди мені повернути, щоб знайти кафе, де є бізнес-лачнію вартістю до 300 рублів.Це Google.

Що стосується Яндекса, який так само наприкінці 2016 року представили . Це алгоритм, який так само працюватиме насамперед із сенсами.

Яка пошукова система краща чи чим відрізняється Яндекс від Google?

На своєму особистому досвідіможу сказати, що обидві пошукові системи добрі по-своєму. Відмінність в тому, що Яндекс - це російський пошуковик, а Google це найбільша у світі пошукова система. Зрозуміло, нас не цікавить зовнішня відмінність сайтів цих пошукових систем і сервісів, які вони надають, а те, як вони формують результати. пошукової видачі, тому що вони дуже сильно відрізняються.

В Яндексі переважно приділено увагу регіональному пошуку. Тобто, якщо Ви знаходитесь у Владивостоку та вводите запит без вказівки міста чи регіону, наприклад «вікна», насамперед Яндекс покаже сайти тих компаній, які знаходяться у Владивостоці та якимось чином пов'язані з вікнами.

Для Google більшою мірою важливою є популярність, цитованість ресурсу (не тільки посилання на Ваш сайт), на основі цього він робить висновок, чи є Ваш сайт корисним.

Щодо інших пошукових систем, то mail.ruє оболонкою пошукової видачі Гугла, тобто. сам mail.ru нічого не аналізує, а просто показує те, що показав би Google. Rambler.ruза тим самим принципом є оболонкою Яндекса.

Пошукова система - це програмно-апаратний комплекс, призначений для пошуку в мережі Інтернет і реагує на запит користувача, що задається у вигляді текстової фрази (пошукового запиту), видачею списку посилань на джерела інформації, в порядку релевантності (відповідно до запиту). Найбільші міжнародні пошукові системи: "Google", «Yahoo», "MSN". У російському Інтернеті це – "Яндекс", «Рамблер», "Апорт".

Опишемо основні характеристики пошукових систем:

Повнота

Повнота - одна з основних характеристик пошукової системи, що є відношенням кількості знайдених на запит документів до загального числа документів в мережі Інтернет, що задовольняють даному запиту. Наприклад, якщо в Інтернеті є 100 сторінок, що містять словосполучення "як вибрати автомобіль", а за відповідним запитом було знайдено всього 60 з них, то повнота пошуку буде 0,6. Очевидно, що чим повніше пошук, тим менша ймовірність того, що користувач не знайде потрібний документ, за умови, що він взагалі існує в Інтернеті.

Точність

Точність - ще одна основна характеристика пошукової машини, яка визначається мірою відповідності знайдених документів запиту користувача. Наприклад, якщо за запитом «як вибрати автомобіль» знаходиться 100 документів, у 50 з них міститься словосполучення «як вибрати автомобіль», а в інших просто ці слова («як правильно вибрати магнітолу і встановити в автомобіль»), то точність пошуку вважається рівної 50/100 (=0,5). Чим точніше пошук, тим швидше користувач знайде потрібні йому документи, тим менше «сміття» серед них буде зустрічатися, тим рідше знайдені документи не будуть відповідати запиту.

Актуальність

Актуальність - не менш важлива складова пошуку, що характеризується часом, що проходить з моменту публікації документів у мережі Інтернет, до занесення їх до індексної бази пошукової системи. Наприклад, наступного дня після появи цікавої новини велика кількість користувачів звернулася до пошукових систем з відповідними запитами. Об'єктивно з моменту публікації новин на цю тему пройшло менше доби, проте основні документи вже були проіндексовані та доступні для пошуку, завдяки існуванню у великих пошукових систем так званої «швидкої бази», яка оновлюється кілька разів на день.

Швидкість пошуку

Швидкість пошуку тісно пов'язана з його стійкістю до навантажень. Наприклад, за даними ТОВ «Рамблер Інтернет Холдинг», на сьогоднішній день у робочі години до пошукової машини Рамблер надходить близько 60 запитів на секунду. Така завантаженість потребує скорочення часу обробки окремого запиту. Тут інтереси користувача та пошукової системи збігаються: відвідувач бажає отримати результати якнайшвидше, а пошукова машина повинна відпрацьовувати запит максимально оперативно, щоб не гальмувати обчислення наступних запитів.

Наочність

Наочність уявлення результатів є важливим компонентом зручного пошуку. За більшістю запитів пошукова машина знаходить сотні, а то й тисячі документів. Внаслідок нечіткості складання запитів або неточності пошуку, навіть перші сторінки видачі не завжди містять лише потрібну інформацію. Це означає, що користувачеві часто доводиться здійснювати власний пошук усередині знайденого списку. Різні елементи сторінки видачі пошукової системи допомагають орієнтуватися в результатах пошуку. http://help.yandex.ru/search/?id=481937.

4. Коротка історія розвитку пошукових систем

У початковий період розвитку Інтернет, кількість його користувачів була невелика, а обсяг доступної інформації порівняно невеликий. Здебільшого доступ до мережі Інтернет мали лише співробітники науково-дослідної сфери. У цей час завдання пошуку інформації в Інтернеті не було таким актуальним, як у цей час.

Одним із перших способів організації доступу до інформаційних ресурсів мережі стало створення відкритих каталогів сайтів, посилання на ресурси в яких групувалися відповідно до тематики. Першим таким проектом став сайт Yahoo.com, що навесні 1994 року. Після того, як кількість сайтів у каталозі Yahoo значно збільшилася, було додано можливість пошуку потрібної інформації з каталогу. У сенсі це ще було пошукової системою, оскільки пошукова область була обмежена лише ресурсами, присутніми у каталозі, а чи не всіма Інтернет ресурсами.

Каталоги посилань широко використовувалися раніше, проте практично повністю втратили популярність нині. Так як навіть сучасні, величезні за своїм обсягом каталоги, містять інформацію лише про мізерну частину мережі Інтернет. Найбільший каталог мережі DMOZ (його ще називають Open Directory Project) містить інформацію про 5 мільйонів ресурсів, тоді як база пошукової системи Googleскладається з більш як 8 мільярдів документів.

Першою повноцінною пошуковою системою став проект WebCrawler, що вийшов друком у 1994 році.

У 1995 році з'явилися пошукові системи Lycos та AltaVista. Остання довгі роки була лідером у сфері пошуку інформації в мережі Інтернет.

У 1997 році Сергій Брін та Ларрі Пейдж створили пошукову машину Google у рамках дослідницького проекту у Стендфордському університеті. Зараз Google – найпопулярніша пошукова система у світі!

У вересні 1997 року була офіційно анонсована пошукова система Yandex, що є найпопулярнішою в російськомовному Інтернеті.

В даний час існують три основні міжнародні пошукові системи - Google, Yahoo і MSN, які мають власні бази та алгоритми пошуку. Більшість інших пошукових систем (яких налічується велика кількість) використовує у тому чи іншому вигляді результати трьох перелічених. Наприклад, пошук AOL (search.aol.com) використовує базу Google, а AltaVista, Lycos та AllTheWeb – базу Yahoo.

5. Склад та принципи роботи пошукової системи

У Росії основною пошуковою системою є «Яндекс», далі – Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причому, на Наразі, Mail.ru використовує механізм та базу пошуку «Яндекса».

Майже всі великі пошукові системи мають власну структуру, відмінну від інших. Однак, можна виділити загальні для всіх пошукових машин основні компоненти. Відмінності у структурі можуть лише у вигляді реалізації механізмів взаємодії цих компонентів.

Модуль індексування

Модуль індексування складається з трьох допоміжних програм (роботів):

Spider (павук) – програма, призначена для завантаження веб-сторінок. "Павук" забезпечує завантаження сторінки та витягує всі внутрішні посилання з цієї сторінки. Завантажується HTML-код кожної сторінки. Для завантаження сторінок роботи використовують протоколи HTTP. Працює «павук» в такий спосіб. Робот на сервер передає запит "get/path/document" та деякі інші команди HTTP-запиту. У відповідь робот отримує текстовий потік, що містить службову інформацію і сам документ.

URL сторінки

дата, коли сторінку завантажили

http-заголовок відповіді сервера

тіло сторінки (html-код)

Crawler («подорожуючий» павук) – програма, яка автоматично проходить за всіма посиланнями, знайденими на сторінці. Виділяє всі посилання на сторінці. Його завдання - визначити, куди далі має йти павук, спираючись на посилання або виходячи із заздалегідь заданого списку адрес. Crawler, слідуючи за знайденими посиланнями, здійснює пошук нових документів, ще невідомих пошуковій системі.

Indexer (робот-індексатор) – програма, яка аналізує веб-сторінки, завантажені павуками. Індексатор розбирає сторінку на складові та аналізує їх, застосовуючи власні лексичні та морфологічні алгоритми. Аналізують різні елементи сторінки, такі як текст, заголовки, посилання структурні та стильові особливості, спеціальні службові html-теги і т.д.

Таким чином, модуль індексування дозволяє обходити за посиланнями задане безліч ресурсів, завантажувати сторінки, що зустрічаються, витягувати посилання на нові сторінки з одержуваних документів і проводити повний аналіз цих документів.

База даних

База даних, або індекс пошукової системи - це система зберігання даних, інформаційний масив, у якому зберігаються спеціальним чином перетворені параметри всіх завантажених та оброблених модулем індексування документів.

Пошуковий сервер

Пошуковий сервер є найважливішим елементом усієї системи, тому що від алгоритмів, що лежать в основі її функціонування, безпосередньо залежить якість та швидкість пошуку.

Пошуковий сервер працює наступним чином:

Отриманий від користувача запит зазнає морфологічного аналізу. Генерується інформаційне оточення кожного документа, що міститься в базі (яке і буде згодом відображено у вигляді сніпету, тобто відповідного запиту текстової інформаціїна сторінці видачі результатів пошуку.

Отримані дані передаються як вхідні параметри спеціальному модулю ранжування. Відбувається обробка даних по всіх документах, внаслідок чого для кожного документа розраховується власний рейтинг, що характеризує релевантність запиту, введеного користувачем, та різних складових цього документа, що зберігаються в індексі пошукової системи.

Залежно від вибору користувача, цей рейтинг може бути скоригований додатковими умовами (наприклад, так званий «розширений пошук»).

Далі генерується сниппет, тобто, для кожного знайденого документа з таблиці документів вилучаються заголовок, коротка анотація, найбільше відповідна запиту і посилання на сам документ, причому знайдені слова підсвічуються.

Отримані результати пошуку передаються користувачеві як SERP (Search Engine Result Page) – сторінки видачі пошукових результатів.

Як видно, всі ці компоненти тісно пов'язані один з одним і працюють у взаємодії, утворюючи чіткий досить складний механізм роботи пошукової системи, що вимагає величезних витрат ресурсів.

Жодна пошукова система не охоплює всі ресурси Інтернету.

Кожна пошукова система збирає відомості про ресурси Інтернет, застосовуючи свої унікальні методи, і формує власну базу даних, що періодично оновлюється. Доступ до цієї бази надається користувачеві.

Пошукові системи реалізують два способи пошуку ресурсу:

Пошук за тематичним каталогів - інформаціяпредставляється у вигляді ієрархічної структури. На верхньому рівні - загальні категорії ("Інтернет", "Бізнес", "Мистецтво", "Освіта" і т.д.), на наступному рівні категорії поділяються на розділи і т.д. Найнижчий рівень – посилання на конкретні веб-сторінки або інші інформаційні ресурси.

Пошук за ключовими словами (індексний пошук або детальний) - користувач надсилає пошуковій системі запит, Що складається з ключових слів. Система повертаєкористувачеві перелік знайдених на запит ресурсів.

Більшість пошукових систем поєднують обидва способи пошуку.

Пошукові системи можуть бути локальними, глобальними, регіональними та спеціалізованими.

У російській частині Інтернет (Рунет) найбільш популярні зараз пошукові системи загального призначення Rambler (www.rambler.ru), Яндекс (www.yandex.ru), Апорт (www.aport.ru), Google (www.google.ru).

Більшість пошукових системреалізовано у вигляді порталів.

Портал (від анг.portal - головний вхід, Ворота) - це веб-сайт, який інтегрує різні сервіси Інтернет: засоби пошуку, пошту, новини, словники і т.д.

Портали можуть бути спеціалізованими (як,www. museum. ru) та загальними (наприклад,www. km. ru).

Пошук за ключовими словами

Набір ключових слів, за якими ведеться пошук, називають критерієм пошуку або темою пошуку.

Запит може складатися як із одного слова, і з поєднання слів, об'єднаних операторами - символами, якими система визначає, яке дію їй необхідно произвести. Наприклад: запит "Москва Пітер" містить оператор І (так сприймається пробіл), який вказує, що треба шукати документи, в яких є обидва слова – і Москва, і Пітер.

Для того, щоб пошук був релевантним (від англ. relevant - доречний, що стосується справи), слід враховувати кілька загальних правил:

Незалежно від цього, який формі вжито слово у запиті, пошук враховує всі його словоформи за правилами російської. Наприклад, за запитом "квиток" будуть знайдені і слова "квитком", "квитку" і т.д.

Великі літери слід використовувати тільки в власних іменах, щоб не переглядати зайві посилання. За запитом "ковалів", наприклад, будуть знайдені документи, де йдеться і про ковалів, і про Кузнєцових.

Бажано звужувати коло пошуку, використовуючи кілька ключових слів.

Якщо потрібної адреси немає серед першої двадцятки знайдених адрес, слід змінити запит.

Кожна пошукова система використовує свою мову запитів. Для знайомства з ним користуйтеся вбудованою довідкою пошукової системи

Великі сайти можуть мати вбудовані системи пошуку інформації в межах своїх веб-сторінок.

Запити в подібних системах пошуку, як правило, будуються за тими самими правилами, що й у глобальних пошукових системах, проте знайомство з довідкою тут не буде зайвим.

Розширений пошук

Пошукові системи можуть надавати механізм користувача, що дозволяє формувати складний запит. Перехід за посиланням Розширений пошукдає можливість редагувати параметри пошуку, вказувати додаткові параметри та вибирати найзручнішу форму показу результатів пошуку. Нижче описано параметри, які можуть бути задані при розширеному пошуку в системах Япс1ех та Rambler.

Опис параметра	Назва в Яндекс	Назва вRambler
Де шукати ключові слова (заголовок документа, основний текст тощо)	Словниковий фільтр	Пошук за текстом...
Які слова повинні або не повинні бути присутніми в документі і наскільки точним має бути збіг	Словниковий фільтр	Шукати слова запиту... Виключити документи, які містять наступні слова...
На якій відстані один від одного повинні розташовуватися ключові слова	Словниковий фільтр	Відстань між словами запиту...
Обмеження на дату документа		Дата документу...
Обмеження пошуку межами одного або кількох сайтів	Сайт/Вершина	Шукати документи лише на наступних сайтах...

Обмеження пошуку з мови документа		Мова документа...
Пошук документів, що містять картинку з певним ім'ям або підписом	Зображення
Пошук сторінок, що містять об'єкти	Спеціальні об'єкти
Форма представлення результатів пошуку	Формат видачі	Виведення результатів пошуку

Деякі пошукові системи (наприклад, Яндекс) дозволяють вводити запити природною мовою. Ви пишіть, що потрібно знайти (наприклад: замовлення квитків на поїзд з Москви до Пітера). Система аналізує запит та видає результат. Якщо вона Вас не влаштовує, переходьте на мову запитів.

Для того, щоб здійснити просування сайту, необхідно розуміти, як працюють пошукові системи і що потрібно робити, щоб потрапити в позиції пошуку за ключовими словами.

Що таке пошукові системи, та які їх завдання

Пошукові системи є комп'ютерними роботами, що надають відвідувачам найактуальнішу і найбільш корисну інформаціюза їхніми запитами.

Чим правильніша відповідь дає пошуковик, тим більший рівень довіри до нього виникає у користувачів мережі Інтернет.

Це важливо для самої системи через те, що вона з цього отримує вигоду у вигляді прибутку за розміщення, який бачать усі, хто нею користуються.

Для того щоб надати правильні відповіді, тим самим збільшивши кількість , пошукові системи працюють за певним принципом, що полягає в зборі даних про сайти, що постійно з'являються, і індексації їх сторінок.

Принцип роботи пошукових систем

Багато користувачів мережі Інтернет вважають, що пошукові системи видають їм інформацію про всі існуючі сайти. Але насправді це зовсім не так, адже вони орієнтуються тільки на ті сторінки, які знаходяться у базі даних машини пошуку. Якщо сайту пошукових систем немає, то ні Google, ні Яндекс не видадуть його в пошуку.

Коли сайт з'являється в базі даних, роботи пошукача сканують його, виявляючи всі внутрішні сторінки, а також посилання, розміщені на даному Інтернет-порталі. Таким чином, відбувається збір повної інформації, як про конкретний сайт, так і інші ресурси, які він популяризує.

Відбуватися процес упіймання і систематизації інформації у вигляді . У деяких випадках це не відбувається достатньо довгий часТому необхідно розуміти, що це за функція пошукової системи і яким чином вона працює.

Яка роль правильного оформлення тексту на сайті читайте в нашій .

Підсумки

Щоб розкрутити сайт, необхідно враховувати всі аспекти роботи популярних пошукових систем, підлаштовуючи показники свого Інтернет-ресурсу під вимоги даних систем. Якщо все буде зроблено відповідно до правил, встановленими Googleта Яндекс, незабаром можна буде побачити свій сайт на перших позиціях пошук за ключовими словами.

З повагою, Настя Чехова
Здрастуйте, шановні читачі блогу сайт. Займаючись або, інакше кажучи, пошуковою оптимізацією як на професійному рівні (просуваючи за гроші комерційні проекти), так і на аматорському рівні (), ви обов'язково зіткнетеся з тим, що необхідно знати принципи роботи в цілому для того, щоб успішно оптимізувати під них свій чи чужий сайт.
Ворога, як кажуть, треба знати в обличчя, хоча, звичайно ж, вони (для рунету це Яндекс і) для нас зовсім не вороги, а скоріше партнери, бо їхня частка трафіку є в більшості випадків превалюючою та основною. Є, звичайно ж, винятки, але вони лише підтверджують це правило.
Що таке сніппет та принципи роботи пошукових систем
Але тут спочатку потрібно буде розібратися, а що таке сніппет, навіщо він потрібен і чому його вміст такий важливий для оптимізатора? У результатах пошуку розташовується відразу під посиланням на знайдений документ (текст якого береться вже писав):
Як сніпет використовуються зазвичай шматки тексту з цього документа. Ідеальний варіант покликаний надати користувачеві можливість скласти думку про вміст сторінки, не переходячи на неї (але це якщо він вийшов вдалим, а це не завжди так).
Сніппет формується автоматично і які фрагменти тексту будуть використовуватися в ньому вирішує, і, що важливо, для різних запитів у однієї і тієї ж веб-сторінки будуть різні сніпети.
Але є ймовірність, що саме вміст тега Description іноді може бути використаний (особливо в Google) як сніпет. Звичайно, це ще залежатиме і від того, у видачі якого він показується.
Але вміст тега Description може виводитися, наприклад, при збігу ключових слів запиту та слів, які ви вживали в дескрипшині або у випадку, коли алгоритм сам ще не знайшов на вашому сайті фрагменти тексту для всіх запитів, за якими ваша сторінка потрапляє у видачу Яндекса або Гугла .
Тому не лінуємося та заповнюємо вміст тега Description для кожної статті. У WordPress це можна зробити, якщо ви використовуєте описаний (а його використовувати я вам рекомендую).
Якщо ви фанат Джумли, то можете скористатися цим матеріалом.
Але сніпет не можна отримати зі зворотного індексу, т.к. там зберігається інформація лише про використані на сторінці слова та їх положення в тексті. Ось саме для створення сніппетів одного і того ж документа в різних пошукових видачах (за різними запитами) наші улюблені Яндекс і Гугл, крім зворотного індексу (потрібного безпосередньо для пошуку — про нього читайте нижче), зберігають ще й прямий індекс, тобто. копію веб-сторінки.
Зберігаючи копію документа в основі їм потім досить зручно нарізати їх необхідні сниппеты, не звертаючись у своїй до оригіналу.
Т.ч. виходить, що пошукові системи зберігають у своїй базі і прямий, і зворотний індекс веб-сторінки. До речі, на формування сніппетів можна опосередковано впливати, оптимізуючи текст веб-сторінки таким чином, щоб алгоритм вибирав як він саме той фрагмент тексту, який ви задумали. Але про це поговоримо вже в іншій статті.
Як працюють пошукові системи загалом
Суть оптимізації полягає в тому, щоб «допомогти» алгоритмам пошукових систем підняти сторінки тих сайтів, які ви просуваєте, на максимально високу позицію у видачі за тими чи іншими запитами.
Слово «допомогти» у попередньому реченні я взяв у лапки, т.к. своїми оптимізаторськими діями ми не зовсім допомагаємо, а найчастіше заважаємо алгоритму зробити повністю релевантну запиту видачу (про загадкові).
Але це хліб оптимізаторів, і доки алгоритми пошуку не стануть досконалими, існуватимуть можливості за рахунок внутрішньої та зовнішньої оптимізації покращити їхні позиції у видачі Яндекса та Google.
Але перш, ніж переходити до вивчення способів оптимізації, потрібно буде хоча б поверхово розібратися в принципах роботи пошукових систем, щоб усі подальші події робити свідомо і розуміючи навіщо це необхідно і як на це відреагують ті, кого ми намагаємося трохи обдурити.
Ясна річ, що зрозуміти всю логіку їхньої роботи від і до нас не вийде, бо багато інформації не підлягає розголошенню, але нам, на перших порах, буде достатньо розуміння основних принципів. Отже, почнемо.
Як же працюють пошукові системи? Як не дивно, але логіка роботи у них усіх, в принципі, однакова і полягає в наступному: збирається інформація про всі веб-сторінки в мережі, до яких вони можуть дотягнутися, після чого ці дані хитро обробляються для того, щоб по них зручно було б вести пошук. Ось, власне, і все, на цьому статтю можна вважати завершеною, але все ж таки додамо трохи конкретики.
По-перше, уточнимо, що документом називають те, що ми зазвичай називаємо сторінкою сайту. При цьому він повинен мати свою унікальну адресу () і, що примітно, хеш-посилання не призводитимуть до появи нового документа (про те, ).
По-друге, варто зупинитись на алгоритмах (способах) пошуку інформації у зібраній базі документів.
Алгоритми прямих та зворотних індексів
Очевидно, що метод простого перебору всіх сторінок, що зберігаються в базі даних, не буде оптимальним. Цей метод називається алгоритмом прямого пошукуі при тому, що цей метод дозволяє, напевно, знайти потрібну інформацію не пропустивши нічого важливого, він абсолютно не підходить для роботи з великими обсягами даних, бо пошук буде займати занадто багато часу.
Тому для ефективної роботи з великими обсягами даних було розроблено алгоритм зворотних (інвертованих) індексів. І, що примітно, саме він використовується всіма великими пошуковими системами у світі. Тому на ньому ми зупинимося докладніше та розглянемо принципи його роботи.
При використанні алгоритму зворотних індексіввідбувається перетворення документів на текстові файли, що містять список всіх слів, що є в них.
Слова в таких списках (індекс-файлах) розташовуються в алфавітному порядку і поряд з кожним з них зазначені у вигляді координат місця в веб-сторінці, де це слово зустрічається. Окрім позиції у документі для кожного слова наводяться ще й інші параметри, що визначають його значення.
Якщо ви згадаєте, то в багатьох книгах (в основному технічних чи наукових) останніх сторінкахнаводиться список слів, що використовуються в цій книзі, із зазначенням номерів сторінок, де вони зустрічаються. Звичайно ж, цей список не включає взагалі всіх слів, що використовуються в книзі, але може служити прикладом побудови індекс-файлу за допомогою інвертованих індексів.
Звертаю вашу увагу, що пошукові системи шукають інформацію не в інтернеті, а зворотних індексах оброблених ними вебсторінок мережі. Хоча і прямі індекси (оригінальний текст) вони також зберігають, т.к. він згодом знадобиться для складання сніпетів, але про це ми вже говорили на початку цієї публікації.
Алгоритм зворотних індексів використовують усіма системами, т.к. він дозволяє прискорити процес, але при цьому будуть неминучі втрати інформації за рахунок спотворень, внесених перетворенням документа в індекс-файл. Для зручності зберігання файли зворотних індексів зазвичай хитрим способом стискаються.
Математична модель, що використовується для ранжування.
Для того, щоб здійснювати пошук за зворотними індексами, використовується математична модель, що дозволяє спростити процес виявлення потрібних вебсторінок (за введеним користувачем запитом) і визначення релевантності всіх знайдених документів цього запиту. Чим більше він відповідає даному запиту(Чим він релевантніший), тим вище він повинен стояти в пошуковій видачі.
Значить основне завдання, що виконується математичною моделлю - це пошук сторінок у своїй базі зворотних індексів відповідних даному запиту та їх подальше сортування в порядку зменшення релевантності даному запиту.
Використання простої логічної моделі, коли документ буде знайденим, якщо в ньому зустрічається фраза, що шукається, нам не підійде, в силу величезної кількості таких вебсторінок, що видаються на розгляд користувачеві.
Пошукова система повинна не лише надати список усіх веб-сторінок, на яких трапляються слова із запиту. Вона має надати цей список у такій формі, коли на самому початку будуть знаходитись найбільш відповідні запиту користувача документи (здійснити сортування за релевантністю). Це завдання не тривіальне і за умовчанням не може бути виконане ідеально.
До речі, неідеальністю будь-якої математичної моделі і користуються оптимізатори, впливаючи тими чи іншими способами на ранжування документів у видачі (на користь сайту, що просувається ними, природно). Матмодель, що використовується всіма пошуковими системами, відноситься до класу векторних. У ній використовується таке поняття, як вага документа стосовно заданого користувачем запиту.
У базовій векторній моделі вага документа за заданим запитом вираховується виходячи з двох основних параметрів: частоти, з якою в ньому зустрічається дане слово (TF - term frequency) і тим, наскільки рідко це слово зустрічається у всіх інших сторінках колекції (IDF - inverse document frequency ).
Під колекцією мається на увазі вся сукупність сторінок, відомих пошуковій системі. Помноживши ці два параметри один на одного, ми отримаємо вагу документа на заданий запит.
Природно, що різні пошукові системи, крім параметрів TF і IDF, використовують безліч різних коефіцієнтів для розрахунку ваги, але суть залишається незмінною: вага сторінки буде тим більше, чим частіше слово з пошукового запитузустрічається в ній (до певних меж, після яких документ може бути визнаний спамом) і чим рідше зустрічається це слово в інших документах проіндексованих цією системою.
Оцінка якості роботи формули асесорами
Таким чином виходить, що формування видач за тими чи іншими запитами здійснюється повністю за формулоюбез участі людини. Але ніяка формула не буде працювати ідеально, особливо спочатку, тому потрібно здійснювати контроль за роботою математичної моделі.
Для цих цілей використовуються спеціально навчені люди, які переглядають видачу (конкретно тієї пошукової системи, яка їх найняла) за різними запитами та оцінюють якість роботи поточної формули.
Всі внесені ними зауваження враховуються людьми, які відповідають за налаштування моделі. До її формули вносяться зміни або доповнення, внаслідок чого якість роботи пошукача підвищується. Виходить, що асесори виконують роль такого своєрідного зворотного зв'язку між розробниками алгоритму та його користувачами, який необхідний для поліпшення якості.
Основними критеріями щодо оцінки якості роботи формули є:
Точність видачі пошукової системи – відсоток релевантних документів (які відповідають запиту). Чим менше веб-сторінок (наприклад, дорвеїв), що не відносяться до теми, буде присутнім, тим краще
Повнота пошукової видачі — відсоткове відношення відповідних запиту (релевантних) вебсторінок до загальної кількості релевантних документів, що є у всій колекції. Тобто. виходить так, що у всій базі документів, які відомі пошуку веб-сторінок, що відповідають заданому запиту, буде більше, ніж показано в пошуковій видачі. І тут можна говорити про неповноті видачі. Можливо, що частина релевантних сторінок потрапила під фільтр і була, наприклад, прийнята за дорвеї або ще якийсь шлак.
Актуальність видачі — міра відповідності реальної веб-сторінки на сайті в інтернеті тому, що про нього написано в результатах пошуку. Наприклад, документ може вже не існувати або бути сильно зміненим, але при цьому у видачі за заданим запитом він буде присутній, незважаючи на його фізичну відсутність за вказаною адресою або на його поточну не відповідність даному запиту. Актуальність видачі залежить від частоти сканування пошуковими роботами документів зі своєї колекції.

Як Яндекс і Google збирають свою колекцію
Незважаючи на простоту індексації веб-сторінок, що здається, тут є маса нюансів, які потрібно знати, а згодом і використовувати при оптимізації (SEO) своїх або замовних сайтів. Індексація мережі (збір колекції) здійснюється спеціально призначеною для цього програмою, яка називається пошуковим роботом (ботом).
Робот отримує початковий список адрес, які він повинен буде відвідати, скопіювати вміст цих сторінок і віддати цей вміст на подальшу переробку алгоритму (він перетворює їх на зворотні індекси).
Робот може ходити не тільки за заздалегідь даним йому списком, але й переходити за посиланнями з цих сторінок і індексувати документи, що знаходяться за цими посиланнями. Т.ч. робот поводиться так само, як і звичайний користувач, що переходить за посиланнями
Тому виходить, що за допомогою робота можна проіндексувати все те, що зазвичай доступно користувачеві, що використовує браузер для серфінгу (пошуковики індексують документи прямої видимості, які може побачити будь-який користувач інтернету).
Є ряд особливостей, пов'язаних із індексацією документів у мережі (нагадаю, що ми вже обговорювали).
Першою особливістю можна вважати те, що крім зворотного індексу, який створюється з оригінального документа завантаженого з мережі, пошукова система зберігає ще й його копію, інакше кажучи, пошукові системи зберігають ще й прямий індекс. Навіщо це потрібно? Я вже згадував трохи раніше, що це потрібно для складання різних сніпетів залежно від введеного запиту.
Скільки сторінок одного сайту Яндекс показує у видачі та індексує
Звертаю вашу увагу на таку особливість роботи Яндекса, як наявність у видачі за заданим запитом лише одного документа з кожного сайту. Такого, щоб у видачі були присутні на різних позиціях дві сторінки з одного ресурсу, бути не могло до недавнього часу.
Це було одне з основних правил Яндекса. Якщо навіть на одному сайті знайдеться сотня релевантних заданому запиту сторінок, у видачі буде присутній лише один (найрелевантніший).
Яндекс зацікавлений у тому, щоб користувач отримував різноманітну інформацію, а не перегортав кілька сторінок пошукової видачі зі сторінками одного і того ж сайту, який цьому користувачеві виявився не цікавим з тих чи інших причин.
Однак, поспішаю погладшати, бо коли дописав цю статтю дізнався новина, що виявляється Яндекс став допускати відображення у видачі другого документа з того ж ресурсу, як виняток, якщо ця сторінка виявиться «дуже хороша і доречна» (іншими словами сильно релевантна запиту).
Що примітно, ці додаткові результати з того самого сайту теж нумеруються, отже, через це з топу випадуть деякі ресурси, що займають нижчі позиції. Ось приклад нової видачі Яндекса:
Пошуковці прагнуть поступово індексувати всі сайти, але часто це буває не просто через зовсім різну кількість сторінок на них (у когось десять, а у когось десять мільйонів). Як бути у цьому випадку?
Яндекс виходить із цього положення обмеженням кількості документів, яку він зможе загнати до індексу з одного сайту.
Для проектів з доменним ім'ямдругого рівня, наприклад, сайт, максимальна кількість сторінок, яка може бути проіндексована дзеркалом рунету, знаходиться в діапазоні від ста до ста п'ятдесяти тисяч (конкретна кількість залежить від ставлення до цього проекту).
Для ресурсів із доменним ім'ям третього рівня – від десяти до тридцяти тисяч сторінок (документів).
Якщо у вас сайт із доменом другого рівня (), а вам потрібно буде загнати в індекс, наприклад, мільйон вебсторінок, то єдиним виходом із цієї ситуації буде створення безлічі піддоменів ().
Піддомени для домену другого рівня можуть мати такий вигляд: JOOMLA.сайт. Кількість піддоменів для другого рівня, яке може проіндексувати Яндекс, становить десь трохи більше 200 (іноді начебто й до тисячі), тому в такий нехитрий спосіб ви зможете загнати в індекс дзеркала рунета кілька мільйонів вебсторінок.
Як Яндекс ставиться до сайтів у неросійськомовних доменних зонах
У зв'язку з тим, що Яндекс донедавна шукав лише з російськомовної частини інтернету, то індексував він в основному російськомовні проекти.
Тому, якщо ви створюєте сайт не в доменних зонах, які він за умовчанням відносить до російськомовних (RU, SU та UA), то чекати на швидку індексацію не варто, т.к. він, швидше за все, його знайде не раніше ніж за місяць. Але вже наступна індексація відбуватиметься з тією самою частотою, що й у російськомовних доменних зонах.
Тобто. доменна зона впливає лише на час, який пройде до початку індексації, але не впливатиме надалі на її частоту. До речі, від чого ця частота залежить?
Логіка роботи пошукових систем із переіндексації сторінок зводиться приблизно до наступного:
знайшовши та проіндексувавши нову сторінкуробот заходить на неї наступного дня
порівнявши вміст з тим, що було вчора, і не знайшовши відмінностей, робот прийде на неї ще раз через три дні
якщо і цього разу на ній нічого не зміниться, він прийде вже через тиждень і т.д.

Т.ч. згодом частота приходу робота на цю сторінку зрівняється з частотою її оновлення або буде співставна з нею. Причому час повторного заходу робота може вимірюватися для різних сайтів як у хвилинах, так і в роках.
Такі вони розумні пошукові системи, складаючи індивідуальний графік відвідування для різних сторінок різних ресурсів. Можна, правда, змусити пошукові системи переіндексувати сторінку за нашим бажанням, навіть якщо на ній нічого не змінилося, але про це в іншій статті.
Продовжимо вивчати принципи пошуку в наступній статті, де ми розглянемо проблеми, з якими стикаються пошукові системи, розглянемо нюанси . Ну, і багато іншого, звичайно ж, так чи інакше допомагає.

Удачі вам! До швидких зустрічей на сторінках блогу сайт
Вам може бути цікаво
Rel Nofollow та Noindex - як закрити від індексації Яндексом та Гуглом зовнішні посилання на сайті
Облік морфологія мови та інші проблеми розв'язувані пошуковими системами, а також відмінність ВЧ, СЧ та НЧ запитів
Траст сайту - що це таке, як його виміряти в XTools, що впливає на нього і як збільшити авторитетності свого сайту
СЕО термінологія, скорочення та жаргон
Релевантність та ранжування - що це таке та які фактори впливають на положення сайтів у видачі Яндекса та Гугла
Які фактори пошукової оптимізації впливають на просування сайту та якою мірою
Пошукова оптимізація текстів - оптимальна частота вживання ключових слів та його ідеальна довжина
Контент для сайту - як наповнення унікальним та корисним контентом допомагає у сучасному просуванні сайтів
Мета теги title, description та keywords заважають просуванню
Апдейти Яндекса - які бувають, як відслідковувати ап Тіц, зміни пошукової видачі та всі інші оновлення