Efektyviai pasinaudokite robots.txt galimybėmis

Darbas su Google skaitytuvais (angl. crawlers)

Efektyviai pasinaudokite robots.txt galimybėmis

Naudodami robots.txt apribokite nuskaitymo galimybes ten, kur nuskaitymas nereikalingas

Robots.txt failas pasako paieškos sistemoms ar joms leidžiama prieiti ir nuskaityti tam tikras Jūsų svetainės dalis (puslapius). Šis failas, kuris privalo būti pavadintas „robots.txt“, yra talpinamas šakniniame Jūsų svetainės serverio aplanke.

Dėl kokių priežasčių Jūs galite nenorėti, kad paieškos sistemos nuskaitytų tam tikrus Jūsų svetainės puslapius? Nes jeigu kai kurie iš svetainės puslapių būtų rasti paieškos sistemų rezultatuose, jie gali būti visiškai nenaudingi juos radusiems vartotojams. Jei nenorite, kad paieškos sistemos nuskaitytų tam tikrus puslapius, galite to išvengti pasinaudodami draugišku Google Webmaster įrankiu — robots.txt generatoriumi — kuris padės Jums sukurti šį failą. Atkreipkite dėmesį, jei Jūsų svetainė naudoja subdomenus ir norite, kad paieškos sistemos nenuskaitinėtų tam tikrų subdomeno puslapių, tuomet turite tam subdomenui sukurti atskirą robots.txt failą. Daugiau informacijos apie tai, kaip naudoti robots.txt failą, galite rasti žiniatinklio valdytojo pagalbos centro gide.

Yra ir kitų būdų, padedančių apsaugoti turinį nuo atsiradimo paieškos rezultatuose, pavyzdžiui: pridedant „NOINDEX“ į robotų meta žymas, naudojant .htaccess skirtą apsaugoti katalogus ir naudojant Google žiniatinklio valdytojo įrankius skirtus pašalinti turinį, kuris jau buvo nuskaitytas ir suindeksuotas. Google inžinierius Matt Cutts išsamiai paaiškina ir demonstruoja kiekvieną proceso žingsnį norint pašalinti savo turinį iš Google. Valdant informacijos nuskaitymą svarbu gerai suvokti savo poreikius: kokią informaciją norite, kad Google robotai nuskaitytų, o kokios nuskaitymą norite uždrausti.

Geriausia praktika

Neskelbtinam turiniui naudokite saugesnius metodus

Neskelbtinos ir slaptos medžiagos blokavimui naudodami robots.txt neturėtumėte jaustis patenkinti. Viena iš priežasčių — paieškos sistemos vis dar gali pateikti URL adresus, kuriuos užblokavote (atvaizduodamos tik URL adresus be jokių pavadinimų (angl. title) ar snippet'ų). Taip nutinka tada kai tie URL adresai yra patalpinti kaip nuorodos kur nors internete. Be to, nepaklusnios, nurodymams besipriešinančios paieškos sistemos, tokios kurios nepripažįsta robotų atskyrimo standartų (angl. Robots Exclusion Standard), gali nepaklusti robots.txt instrukcijoms. Ir galiausiai, smalsus vartotojas gali patikrinti katalogus ir pakatalogius esančius Jūsų robots.txt faile ir atspėti URL adresus to turinio, kurį norėtumėte paslėpti. Turinio šifravimas ar apsaugojimas slaptažodžiu naudojant .htaccess yra saugesnė alternatyva.

Ko derėtų vengti?

  • Neleiskite nuskaityti (suindeksuoti) paieškos rezultatų tipo puslapių: paprastai vartotojams nepatinka palikti vieną paieškos rezultatų puslapį ir nutūpti kitame paieškos rezultatų puslapyje, kuris neturi reikšmingos pridėtinės vertės;
  • Neleiskite nuskaityti URL adresų, kurie sukurti kaip proxy paslaugų rezultatai.

Terminai:

Robots Exclusion Standard — konvencija skirta išvengti bendradarbiavimo su tokiais internetiniais vorais / skaitytuvais (angl. crawlers) kaip Googlebot'ai, neleidžiant jiems pasiekti visos interneto svetainės ar jos dalies, kuri priešingu atveju yra viešai matoma.
Proxy paslauga — tai toks kompiuteris, kuris naudojamas kaip ryšio pakaitalas tokiais atvejais, kai vidinis tinklas yra sujungtas su išoriniu tinklu. Proxy paslauga taip pat gali būti ir programinė įranga, kuri turi funkciją tam pačiam tikslui — ryšio pakeitimui.

Šaltinis: Google Webmaster Guidelines