Съвети за всяка част на живота.

Правилата за писане на роботи управляват индексирането на сайта

Бърза навигация в страницата:

  • Какво е robots.txt?
  • Правила за инструкции за потребителски агент
  • Правила за забраняване и разрешаване на индикация
  • Посочете хоста и картата на сайта
  • Пример за robots.txt за WordPress

Съвременната реалност е, че в Runet нито един уважаващ себе си сайт не може без файл, наречен robots.txt - дори ако нямате нищо, което да му попречи да се индексира (въпреки че почти всеки сайт има технически страници и дублирано съдържание, което трябва да бъде затворено от индексиране ), тогава най-малко определено си струва да напишете директива с www и без www за Yandex - за това се използват правилата за писане на robots.txt, които ще бъдат разгледани по-долу.

индексирането

Какво е robots.txt?

Историята на файла с това име датира от 1994 г., когато консорциумът W3C решава да въведе такъв стандарт, за да могат сайтовете да предоставят на търсачките инструкции за индексиране.

Файлът с това име трябва да бъде записан в главната директория на сайта, поставянето му в други папки не е разрешено.

Файлът изпълнява следните функции:

  • забранява индексирането на страници или групи от страници
  • позволява да се индексират всякакви страници или групи от страници
  • показва работата на Yandex, кое огледало на сайта е основното (с www или без www)
  • показва местоположението на файла с карта на сайта
  • И четирите точки са изключително важни за оптимизацията на сайта за търсачки. Забраната за индексиране ви позволява да блокирате индексирането на страници, които съдържат дублирано съдържание — например страници с етикети, архиви, резултати от търсене, страници с печатни версии и т.н. Наличието на дублирано съдържание (когато един и същ текст, дори и в обем от няколко предложения, присъства на две или повече страници) е недостатък за сайта в класирането в търсачките,следователно трябва да има възможно най-малко дубликати.

    Директивата за разрешаване няма независима стойност, тъй като по подразбиране всички страници са достъпни за индексиране. Работи заедно с disallow — когато например раздел е напълно затворен от търсачките, но вие искате да отворите определена страница в него.

    Посочването на основното огледало на сайта също е един от най-важните елементи при оптимизацията: търсачките разглеждат www.yoursite.ru и yoursite.ru като два различни ресурса, освен ако изрично не им кажете друго. В резултат на това се получава дублиране на съдържанието — поява на дубликати, намаляване на силата на външните връзки (външните връзки могат да се поставят както с www, така и без www), и в резултат на това това може да доведе до по-ниско класиране в Резултати от търсенето.

    За Google основното огледало е предписано в инструментите за уеб администратори (http://www.google.ru/webmasters/), но за Yandex тези инструкции могат да бъдат предписани само в същия robots.tkht.

    Посочването на xml файл с карта на сайта (например sitemap.xml) позволява на търсачките да намерят този файл.

    Правила за инструкции за потребителски агент

    Потребителски агент в този случай е търсачка. Когато пишете инструкциите, е необходимо да посочите дали те ще се прилагат за всички търсачки (след това се добавя звездичка — *) или са предназначени за конкретна търсачка, например Yandex или Google.

    За да посочите потребителски агент за всички роботи, напишете следния ред във вашия файл:

    Потребителски агент: *

    За Yandex:

    Потребителски агент: Yandex

    За Google:

    Потребителски агент: GoogleBot

    Правила за забраняване и разрешаване на индикация

    Първо, трябва да се отбележи, че файлът robots.txt трябва да съдържа поне една директива за забрана, за да бъде валиден. Сега нека помислимприлагане на тези директиви върху конкретни примери.

    С помощта на този код позволявате индексиране на всички страници на сайта:

    Потребителски агент: * Забрана:

    И с помощта на този код, напротив, всички страници ще бъдат затворени:

    Потребителски агент: * Забрана: /

    За да забраните индексирането на конкретна директория с име folder, посочете:

    Потребителски агент: * Disallow: /папка

    За да забраните индексирането на конкретна директория с име folder, посочете:

    Потребителски агент: * Disallow: /папка

    Можете също да използвате звездички, за да замените произволно име:

    Потребителски агент: * Забрана: *.php

    Важно: звездичката замества изцяло името на файла, тоест не можете да посочите file*.php, само *.php (но всички страници с разширение .php ще бъдат забранени, за да избегнете това - можете да посочите конкретен адрес на страница) .

    Директивата allow, както бе споменато по-горе, се използва за създаване на изключения в disallow (в противен случай няма смисъл, тъй като страниците по подразбиране вече са отворени).

    Например, нека забраним индексирането на страницата в архивната папка, но оставим страницата index.html от тази директория отворена:

    Разрешаване: /archive/index.html Disallow: /архив/

    Посочете хоста и картата на сайта

    Хостът е основното огледало на сайта (т.е. името на домейна плюс www или името на домейна без този префикс). Хостът е посочен само за робота Yandex (в същото време трябва да има поне една команда за забрана).

    За да посочи хост robots.txt трябва да съдържа следния запис:

    Потребителски агент: Yandex Забрана: Домакин: www.vashsayt.ru

    Що се отнася до картата на сайта, картата на сайта robots.txt се определя чрез просто посочване на пълния път до съответния файл с името на домейна:

    Карта на сайта:http://vashsayt.ru/sitemap.xml

    Как да направите карта на сайта за WordPress е написано тук.

    Пример за robots.txt за WordPress

    За wordpress инструкциите трябва да бъдат посочени по такъв начин, че да затворят всички технически директории (wp-admin, wp-includes и т.н.) за индексиране, както и дублиращи се страници, създадени от тагове, rss файлове, коментари и търсене.

    Като пример за robots.txt за wordpress можете да вземете файла от нашия сайт:

    Потребителски агент: Yandex Забрана: /wp-admin Забрана: /wp-includes Забрана: /wp-login.php Забрана: /wp-register.php Забрана: /xmlrpc.php Забрана: /търсене Забрана: */trackback Забрана: */feed/ Забрана: */feed Забрана: */comments/ Забрана: /?feed= Забрана: /?s= Забрана: */страница/* Забрана: */коментар Забрана: */tag/* Забрана: */прикачен файл/* Разрешаване: /wp-content/uploads/

    Домакин: www.runcms.org

    Потребителски агент: Googlebot Забрана: /wp-admin Забрана: /wp-includes Забрана: /wp-login.php Забрана: /wp-register.php Забрана: /xmlrpc.php Забрана: /търсене Забрана: */trackback Забрана: */feed/ Забрана: */feed Забрана: */comments/ Забрана: /?feed= Забрана: /?s= Забрана: */страница/* Забрана: */коментар Забрана: */tag/* Забрана: */прикачен файл/* Разрешаване: /wp-content/uploads/

    Потребителски агент: * Забрана: /wp-admin Забрана: /wp-includes Забрана: /wp-login.php Забрана: /wp-register.php Забрана: /xmlrpc.php Забрана: /търсене Забрана: */trackback Забрана: */feed/ Забрана: */feed Забрана: */comments/ Забрана: /?feed= Забрана: /?s= Забрана: */страница/* Забрана: */коментар Забрана: */tag/* Забрана: */прикачен файл/* Разрешаване: /wp-content/uploads/

    Карта на сайта:http://www.runcms.org/sitemap.xml

    Можете да изтеглите файла robots.txt от нашия уебсайт, като използвате тази връзка.

    Ако имате някакви въпроси, след като прочетете тази статия, задайте ги в коментарите!

    Меню



    Прочетете също:


    E-mail:
    support@JivotSuveti.com За общи запитвания и за връзка с автора.❤️
    Всички права запазени © 2024.