Conform conceptului de indexare, adoptat de Google,Este luată în considerare caracterul complet, obiectivitatea informațiilor și corespondența acestora cu interogarea de căutare atunci când se dau rezultatele. Dacă un site cu conținut ilegal intră în index sau dacă resursa este destinată spamului, atunci paginile unui astfel de site nu vor fi marcate în baza de date generală a motorului de căutare. Este important pentru noi să învățăm cum să ștergem un site de pe server după rezultatele căutării.

Opțiuni de indexare zero pentru Google

Odată ce crawlerul este un program de colectareinformații despre noi resurse - va scana pagina site-ului de pagină, apoi, atunci când în conformitate cu cerințele politicii Google pentru parsare, acesta va fi indexat. Dar noi, de asemenea, vă arată cum să eliminați site-ul sau fragmente pentru motoarele de căutare printr-un robots.txt - indice de căutare și în același timp oprire.

Pentru a exclude întreaga resursă de la emitere,directorul rădăcină al serverului pe care este localizat site-ul, creează o zonă de text specifică - documentul robots.txt menționat anterior. Această zonă este procesată de motoarele de căutare și funcționează în conformitate cu instrucțiunile citite.

Rețineți că motorul de căutare Googleindexați pagina, chiar dacă utilizatorul nu are permisiunea de a vedea. Când browserul răspunde la 401 sau 403, "Accesul nu este valabil", aceasta se aplică numai vizitatorilor, nu programelor de colectare pentru acest server de căutare.

Pentru a înțelege cum să ștergeți un site de la indexarea căutării, trebuie să introduceți următoarele linii în indicatorul de text:

User-agent: Googlebot

Nu permiteți: /

Acest lucru indică robotului căutării că este interzisă indexarea întregului conținut al site-ului. Iată cum puteți șterge un site Google astfel încât site-ul să nu stocheze o cache în lista de site-uri detectate.

Opțiunile de scanare pentru diferite protocoale

Dacă trebuie să enumerați standarde individualeLinkuri pentru care doriți să aplicați reguli specifice pentru indexarea Google, de exemplu, separat pentru protocoalele html http / https, aceasta ar trebui să fie scrisă și în robots.txt în modul următor (exemplu).

(http://yourserver.com/robots.txt) - numele domeniului site-ului dvs. (orice)

User-agent: * - pentru orice motor de căutare

Permiteți: / - permite indexarea completă

Cum să eliminați complet un site din emisiune pentru protocolul https

(Https://yourserver.com/robots.txt):

User-agent: *

Nu permiteți: / interzicerea completă a indexării

Ștergerea urgentă a adresei URL a resursei de la Căutarea Google Google

Dacă nu doriți să așteptați re-indexarea, șisite-ul trebuie să fie ascuns cât mai curând posibil, vă recomandăm să utilizați serviciul http://services.google.com/urlconsole/controller. Fișierul pre-robots.txt ar trebui să fie deja plasat în directorul rădăcină al serverului de site. Instrucțiunile trebuie să fie scrise în ea.

Dacă indicatorul nu este disponibil din anumite motivepentru editare în directorul rădăcină, este suficient să îl creați în folderul cu obiectele pentru care doriți să vă ascundeți de motoarele de căutare. De îndată ce faceți acest lucru și contactați serviciul de eliminare automată a adreselor de hipertext, Google nu va scana directoarele care sunt scrise în robots.txt.

Perioada de invizibilitate este fixată timp de 3 luni. După această perioadă, directorul eliminat din ediție va fi procesat din nou de serverul Google.

KCum să ștergeți un site pentru scanare în parte

Când botul de căutare citește conținutul roboților.txt, apoi pe baza conținutului său, se iau anumite decizii. De exemplu, trebuie să excludeți de pe ecran întregul director numit anatom. Pentru aceasta este suficient să scrieți astfel de instrucțiuni:

User-agent: Googlebot

Nu permiteți: / anatom

Sau, de exemplu, nu doriți să indexați toate imaginile ca .gif. Pentru aceasta, adăugați următoarea listă:

User-agent: Googlebot

Dezactivați: /*.gif$

Iată un alt exemplu. Să ștergem informațiile despre paginile generate dinamic din parsare, apoi adăugăm următoarea intrare la pointer:

User-agent: Googlebot

Nu permiteți: / *?

Aici, aproximativ, și regulile pentrumotoarele de căutare. Un alt lucru este că este mult mai convenabil pentru toate acestea să folosească eticheta META. Și webmasterii folosesc adesea doar un astfel de standard care reglementează funcționarea motoarelor de căutare. Dar vom vorbi despre asta în următoarele articole.

</ p>