Wszystko o robotach wyszukiwarek
  Strona glówna O serwisie Kontakt Mapa Szukaj w serwisie 
    Menu
       Wprowadzenie
       Plik robots.txt
  • Opis robots.txt
  • Składnia & Błędy
  •        Meta Tag 'ROBOTS'
           Baza robotów
           Analiza logów
           FAQ
           Forum
           Linki
      Nasze serwisy
           SearchEngines.pl
           Katalog Dobrych Stron
           Forum P2P
           Pozycjonowanie
           Domy studenckie
           Hostele w Europie
      Polecamy
           DirectTraffic.pl


    :: Strona Glówna --> Robots.txt --> Składnia i błędy ::


    Składnia

    Składnia tworzenia robots.txt jest dla większości 'przeciętnych' ludzi nieznana. Ogólnie można powiedzieć, że robots.txt zawiera proste komendy dla robota, których stron czy katalogów ma nie odwiedzać. Każda sekcja pliku zawiera nazwę robota (user agent) oraz ścieżkę, na którą danemu robotowi zakazany jest wstęp. Nie ma natomiast możliwości dopuszczenia robota do określonych katalogów lub plików o zadanych rozszerzeniach (możemy tylko zabraniać;) Należy pamiętać, że robot może "wpełznął" do każdego katalogu na serwerze jeśli nie zostało mu to zabronione.

    Najczęściej możemy przeczytać plik po prostu wpisując jego adres w przeglądarce ( na przykład www.spiders.pl/robots.txt). Zaletą takiego rozwiązania jest wielka wygoda w edycji (brak specjalnego edytora).

    Jako, że najlepiej pokazać składnię robot.txt na przykładzie, poniżej prezentuję tabelkę:

    Wpis Znaczenie
    User-agent: *
    
    Disallow:

    Gwiazdka (*) w sekcji User-agent (nazwa robota), jest po prostu skrótem dla "wszystkie roboty". Jako, że nic nie jest zabronine, wszystko jest dozwolone. (tak jakby nie było robots.txt)

    User-agent: *
    
    Disallow: /cgi-bin/
    
    Disallow: /tmp/
    
    Disallow: /private/
             
    W tym przykładzie wszystkie roboty mogą zaglądać gdzie im się podoba z wyjątkiem trzech niżej wymienionych katalogów.
    User-agent: BadBot
    Disallow: /

    W tym przypadku robot o nazwie BadBot nie może katalogować nic z tego serwera. (/) to skrót do "wszystkie katalogi".

    Uwaga : BadBot = badbot = BADBOT

    User-agent: BadBot
    
    Disallow: /
    
    
    User-agent: *
    
    Disallow: /private/

    To co poprzednio ale:

    Pusta linijka oznacza,że zaczynamy nowy "wpis" - nową komendę User-agent. Wszystkie pozostałe roboty (poza BadBot), nie mogą odwiedzić katalogu /private/

    User-agent: ZłyBot
    
    Disallow: /tmp/
    
    Disallow: /private/
    
    Disallow: /links/listing.html
    
    
    
    User-agent: *
    
    Disallow: /tmp/
    
    Disallow: /private/

    Te komendy zabraniają dostępu (Złemubotowi) do wymienionych katalogów oraz do pliku listing.html

    Wszystkie pozostałe roboty nie mogą wejść w tmp i private.

    (Jeśli myślisz, że te komendy są wyjątkowo nieefektywne to masz rację)

    Czego robić nie należy? - najczęstrze błędy
    Jak Ci nie idzie, zawsze możesz skorzystać z The Robots Syntax Checker
    User-agent: *
    Disallow /
    Błąd! Nie ma dwukropka po Disallow.
    User-agent: *
    Disallow: *

    Błąd jak chcesz żęby robot nie mógł nigdzie wejść użyj (/) w disallow

    User-agent: sidewiner
    Disallow: /tmp/

    Nie! Roboty nie będą zważały na błędy w pisowni nazw robotów.

    Zapraszamy do działu Baza Robotów.

    Często pojawiają się też takie błędy:

    • Zamiast pisać: 'Disallow: /tmp/*' napisz: 'Disallow: /tmp'.

    Dalej - Meta Tagi

      Reklama
     
    This website was designed  by V8 Design Start | Reklama | O serwisie | Mapa serwisu | Kontakt
    Copyright 2005© SearchEngines.pl
    Gemius - lider w badaniach Internetu