Robots.txt galimybės

Naudodami robots.txt apribokite nuskaitymo galimybes ten, kur nuskaitymas nereikalingas.

Kas yra Robots.txt?

Robots.txt – tekstinis failas, skirtas nurodyti paieškos sistemų robotams, kuriuos internetinio tinklalapio puslapius leidžiama nuskaityti ir kurių ne. Šis failas, kuris privalo būti pavadintas „robots.txt“, yra talpinamas šakniniame Jūsų svetainės serverio aplanke. Nuskaitymo instrukcijos yra nurodomos šiuo formatu:
User-agent: [svetainių nuskaitymo roboto pavadinimas].
Disallow: [URL, kurie negali būti nuskaityti].

Techninė robots.txt sintaksė:

  • User-agent: svetainių nuskaitymo robotukas, kuriam norite duoti instrukcijas.
  • Disallow: komanda, nurodanti, kurio URL nereikėtų nuskaityti.
  • Allow (veikianti tik su „Googlebot“): komanda, kuri pasako „Google“ robotui, kad jis gali nuskaityti sub-katalogus, nors pats šakninis katalogas nuskaityti ir neleidžiamas.
  • Crawl-delay: nurodo, kiek milisekundžių nuskaitymo robotas turėtų palaukti prieš nuskaitydamas puslapių turinį.
  • Sitemap: ši komanda yra palaikoma tik „Google“, „Ask“, „Bing“ ir „Yahoo“, ji nurodo XML svetainės žemėlapio vietą.

Kodėl reikia slėpti tam tikrus svetainės puslapius?

Yra įvairių priežasčių, kodėl Jūs galite norėti, kad paieškos sistemos nerastų tam tikrų Jūsų interneto svetainės puslapių. Dažniausiai pasitaikančios priežastys yra:

  • neleisti dubliuotam turiniui atsirasti paieškos sistemų rezultatuose;
  • slėpti svetainės dalis, kuriose yra privati informacija (pvz., vidiniam įmonės naudojimui skirti puslapiai);
  • paieškos sistemoms uždrausti indeksuoti tam tikrus failus, – paveikslėliai, PDF failai ir t. t.;
  • įvesti tam tikrus svetainės nuskaitymo atidėjimus ir taip apsaugoti serverius nuo užkrovimų.

Kaip sukurti robots.txt failą?

Robots.txt failų sukūrimas nėra sudėtingas procesas. „Google“ labai detaliai aprašo kaip tai padaryti ir pateikia įrankį, kuris leidžia ištestuoti, ar failas parengtas teisingai  „Google“ straipsnis apie robots.txt sukūrimą.
Atkreipkite dėmesį, jei Jūsų svetainė naudoja subdomenus ir norite, kad paieškos sistemos nenuskaitytų tam tikrų subdomeno puslapių, tuomet turite tam subdomenui sukurti atskirą robots.txt failą.
Yra ir kitų būdų, padedančių apsaugoti turinį nuo atsiradimo paieškos rezultatuose, pavyzdžiui: pridedant „NOINDEX“ į robotų meta žymas, naudojant .htaccess, skirtus apsaugoti katalogus ir naudojant „Google“ žiniatinklio valdytojo įrankius, skirtus pašalinti turinį, kuris jau buvo nuskaitytas ir suindeksuotas.

Neskelbtinam turiniui naudokite saugesnius metodus

Neskelbtinos ir slaptos medžiagos blokavimui naudodami robots.txt neturėtumėte jaustis patenkinti. Viena iš priežasčių – paieškos sistemos vis dar gali pateikti URL adresus, kuriuos užblokavote (atvaizduodamos tik URL adresus be jokių pavadinimų (angl. title) ar snippet'ų). Taip nutinka tada, kai tie URL adresai yra patalpinti kaip nuorodos kur nors internete.

Nepaklusnios, nurodymams besipriešinančios paieškos sistemos, kurios nepripažįsta robotų atskyrimo standartų (angl. Robots Exclusion Standard), gali nereaguoti į robots.txt instrukcijas. Galiausiai, smalsus vartotojas gali patikrinti katalogus ir pakatalogius, esančius Jūsų robots.txt faile bei atspėti URL adresus to turinio, kurį norėtumėte paslėpti. Turinio šifravimas ar apsaugojimas slaptažodžiu naudojant .htaccess yra saugesnė alternatyva.

Ko derėtų vengti?

Neleiskite nuskaityti (suindeksuoti) paieškos rezultatų tipo puslapių. Paprastai vartotojams nepatinka palikti vienų paieškos rezultatų puslapių ir nutūpti kitame paieškos rezultatų puslapyje, kuris neturi reikšmingos pridėtinės vertės.
Neleiskite nuskaityti URL adresų, kurie sukurti kaip proxy paslaugų rezultatai.

Terminai:

Robots Exclusion Standard – konvencija, skirta išvengti bendradarbiavimo su tokiais internetiniais vorais / skaitytuvais (angl. crawlers), kaip Googlebot'ai, neleidžianti jiems pasiekti visos interneto svetainės ar jos dalies, kuri priešingu atveju yra viešai matoma.
Proxy paslauga – kompiuteris, kuris naudojamas kaip ryšio pakaitalas tokiais atvejais, kai vidinis tinklas yra sujungtas su išoriniu tinklu. Proxy paslauga taip pat gali būti ir programinė įranga, kuri turi funkcijų tam pačiam tikslui – ryšio pakeitimui.

Šaltinis: Google Webmaster Guidelines