Wszystko o robotach wyszukiwarek
  Strona glówna O serwisie Kontakt Mapa Szukaj w serwisie 
    Menu
       Wprowadzenie
       Plik robots.txt
       Meta Tag 'ROBOTS'
       Baza robotów
       Analiza logów
       FAQ
       Forum
       Linki
  Nasze serwisy
       SearchEngines.pl
       Katalog Dobrych Stron
       Forum P2P
       Pozycjonowanie
       Domy studenckie
       Hostele w Europie
  Polecamy
       DirectTraffic.pl


:: Strona Główna --> Wprowadzenie

Wprowadzenie

Czym są roboty?

Większość wyszukiwarek korzysta z programów nazywanych robotami , aby zbierać informacje o indeksowanych stronach WWW. Programy te nie ograniczają się do "wylistowania" stron, potrafią one podążać za linkami, co sprawia, że można o nich myśleć jak o inteligentnych agentach WWW ;)

Kontrolowanie robotów
Roboty nie potrafią indeksować nie-polinkowanych plików, więc ominą te które leżą sobie "luzem" w katalogach na serwerze. Webmaster może kontrolować, które katalogi/pliki są odwiedzane przez roboty edytując plik robots.txt (który znajduje się na serwerze), bądź też implementując odpowiednie Meta Tagi.
Podążanie za linkami
Lokalne roboty indeksujące wyszukują pliki do indeksowania podążając za linkami, tak jak robią to on-line`owe roboty wyszukiwarek. Ty wybierasz stronę startową, a roboty indeksujące zażądają jej od serwera i pobiorą, tak jak zwykła przeglądarka. "Indekser" zachowa każde słowo ze strony i podąży za każdym linkiem, indeksując i zagłębiając się coraz dalej w strukturę witryny.
Problemy z linkami
Roboty ominą strony, które zostały przypadkowo "odłączone" z punktu startowego. Dodatkowo roboty mają kłopoty z linkami napisanymi JavaScript`cie.
Elementy dynamiczne
Robot ściąga każdą stronę tak samo jak robi to przeglądarka, z całą dynamiczną zawartością - GCI, SSI, ASP itp. Czasem może nie być z nią problemu, jednak może się zdarzyć, że elementy dynamiczne zakłócą indeksowanie strony.
Większość wyszukiwarek lokalnych radzi sobie z dynamicznymi URL`ami (z znakami zapytania ? i innymi znakami), jednakże wyszukiwarki ogólno-światowe (webwide) nie zaindeksują takich stron.
 
Obciążenie serwera
Jako, że roboty używają protokołu HTTP, mogą one obciążyć serwer (ściągając strony). Może się też zdarzyć, że robot wpadnie w pętlę i w kółko będzie wysyłał prośbę o pobranie pliku z serwera. Jeśli masz z tym problem zajrzyj do działu robots.txt.
Odświeżanie indeksów
Aby update`ować indeks, robot utworzy zapytanie do serwera WWW o status każdej połączonej linkiem strony. Pobierze nagłówek HTTP używając zapytania "HEAD" (zazwyczaj zapytanie zwykłej przeglądarki to "GET"). Serwer może odpowiedzieć na zapytanie odsyłając nagłówek strony z wewnętrznego cache`u, bez otwierania i czytania całego pliku. (Dzięki temu taka interakcja może być bardzo efektywna.) Wtedy indexer porównuje daty z nagłówka i tą, którą sam pobrał dawniej z serwera (kiedy update`ował indeks). Jeśli strona nie została zmieniona, robot nie musi odświeżać indeksu. Jeśli natomiast daty się różnią lub jeśli robot jeszcze nie indeksował danej strony, robot wyśle zapytanie GET i pobierze całą stronę. Alternatywnym rozwiązanie jest wysłanie zapytania "If-Modified-Since". Ten nagłówek z HTTP/1.1 pozwala serwerowi na odesłanie kodu, jeśli strona nie została zmieniona, lub całej strony jeśli strona się zmieniła.
 
Zduplikowane strony
Roboty muszą zawierać specjalny kod, żeby sprawdzać czy nie istnieje kopia danej strony (Mirroing). Niektóre roboty mają zaimplementowane potężne algorytmy pozwalające na identyfikację takich duplikatów i przechowywanie tylko jednej kopii.

Dalej do działu robots.txt

  Reklama
 
Start | Najlepsze internetowe infografiki => www.infografika.co | Cezzy.pl -> Blog SEO o Google, SEO, Centrum Webmastera, nowych i ciekawych zjawiskach w Internecie | Polecamy komputery, laptopy, akcesoria komputerowe w katalogu komputerowym pcshop.com.pl | Najlepsze katalogi stron WWW - ranking top 50 | Reklama | O serwisie | Mapa serwisu | Kontakt
Copyright 2005-2011© SearchEngines.pl