::
Strona Główna --> Wprowadzenie
|
Wprowadzenie
Czym są roboty?
Większość wyszukiwarek korzysta z programów nazywanych robotami ,
aby zbierać informacje o indeksowanych stronach WWW. Programy te nie ograniczają
się do "wylistowania" stron, potrafią one podążać za linkami,
co sprawia, że można o nich myśleć jak o inteligentnych agentach WWW ;)
- Kontrolowanie robotów
- Roboty nie potrafią indeksować nie-polinkowanych plików,
więc ominą te które leżą sobie "luzem" w katalogach
na serwerze. Webmaster może kontrolować, które katalogi/pliki
są odwiedzane przez roboty edytując plik robots.txt (który
znajduje się na serwerze), bądź też implementując odpowiednie Meta
Tagi.
- Podążanie za linkami
- Lokalne roboty indeksujące wyszukują pliki do indeksowania
podążając za linkami, tak jak robią to on-line`owe roboty wyszukiwarek. Ty
wybierasz stronę startową, a roboty indeksujące zażądają jej
od serwera i pobiorą, tak jak zwykła przeglądarka. "Indekser" zachowa
każde słowo ze strony i podąży za każdym linkiem, indeksując
i zagłębiając się coraz dalej w strukturę witryny.
- Problemy z linkami
- Roboty ominą strony, które zostały przypadkowo "odłączone" z
punktu startowego. Dodatkowo roboty mają kłopoty z linkami
napisanymi JavaScript`cie.
- Elementy dynamiczne
- Robot ściąga każdą stronę tak samo jak robi to przeglądarka,
z całą dynamiczną zawartością - GCI, SSI, ASP itp. Czasem może
nie być z nią problemu, jednak może się zdarzyć, że elementy
dynamiczne zakłócą indeksowanie strony.
Większość wyszukiwarek lokalnych radzi sobie z dynamicznymi URL`ami (z znakami
zapytania ? i innymi znakami), jednakże wyszukiwarki ogólno-światowe (webwide)
nie zaindeksują takich stron.
-
- Obciążenie serwera
- Jako, że roboty używają protokołu HTTP, mogą one obciążyć
serwer (ściągając strony). Może się też zdarzyć, że robot wpadnie
w pętlę i w kółko będzie wysyłał prośbę o pobranie pliku z
serwera. Jeśli masz z tym problem zajrzyj do działu robots.txt.
- Odświeżanie indeksów
- Aby update`ować indeks, robot utworzy zapytanie do serwera
WWW o status każdej połączonej linkiem strony. Pobierze nagłówek
HTTP używając zapytania "HEAD" (zazwyczaj zapytanie
zwykłej przeglądarki to "GET"). Serwer może odpowiedzieć
na zapytanie odsyłając nagłówek strony z wewnętrznego cache`u,
bez otwierania i czytania całego pliku. (Dzięki temu taka interakcja
może być bardzo efektywna.) Wtedy indexer porównuje daty z
nagłówka i tą, którą sam pobrał dawniej z serwera (kiedy update`ował
indeks). Jeśli strona nie została zmieniona, robot nie musi
odświeżać indeksu. Jeśli natomiast daty się różnią lub jeśli
robot jeszcze nie indeksował danej strony, robot wyśle zapytanie
GET i pobierze całą stronę. Alternatywnym rozwiązanie jest
wysłanie zapytania "If-Modified-Since". Ten nagłówek
z HTTP/1.1 pozwala serwerowi na odesłanie kodu, jeśli strona
nie została zmieniona, lub całej strony jeśli strona się zmieniła.
-
- Zduplikowane strony
- Roboty muszą zawierać specjalny kod, żeby sprawdzać czy nie
istnieje kopia danej strony (Mirroing). Niektóre roboty mają
zaimplementowane potężne algorytmy pozwalające na identyfikację
takich duplikatów i przechowywanie tylko jednej kopii.
|
Dalej do działu robots.txt |