Plik Robots.txt
Roboty indeksujące sprawdzają specjalny plik o nazwie robots.txt, który
powinien znajdować się w katalogu głównym serwera. Plik robots.txt (jak
można się domyślić) jest plikiem tekstowym bez tagów HTML. Robots.txt
używa specjalnego protokołu - Robots Exclusion Protocol, który
pozwala administratorowi zdefiniować, które katalogi / pliki na jego serwerze
nie zostaną odwiedzone przez określone roboty. Możemy zakazać (disallow)
"wstępu" do katalogu CGI, private lub np. katalogu tymczasowego.
No dobrze, ale po co używać robots.txt i tym samym zakazywać robotom
indeksującym odwiedzenia i zaindeksowania naszej strony? Przecież chcemy
zapewnić sobie jak najwyższą pozycję w wyszukiwarkach.
Wierzcie mi, lub nie, ale czasem chcemy trzymać niektóre roboty zdala
od naszego serwera...
Powiedzmy, że przygotowujesz jakąś stronę dla klienta i nie chcesz,
żeby została zaindeksowana przed jej ukończeniem. Zdarza się, że jakiś
wredny robot wpadnie w pętlę i bedzię wchodził na Twoją stronę w kółko,
generując niepotrzebny korek. Możesz mieć stronę z dużą ilością ramek
i chcesz zaindeksować tylko tą główną.Może masz jakieś prywatne pliki
na serwerze, i nie chcesz żeby ktoś je znalazł?
Możemy doszukiwać się wielu powodów, a robots.txt to najlepsza i najskuteczniejsza
obrona przeciw robotom.
Dalej - :Składnia: