przez Darek_C++ » sobota, 23 sierpnia 2008, 09:57
Sam komponent IdHTTP umożliwia pobranie danych czyli kodu HTML strony i to wszystko do czego go można wykorzystać w budowie takiego pająka.
Następnie musi być moduł który dokona analizy kodu i wyciągnie z niego linki i je zapisze do jakieś bazy danych. Kolejny moduł musi wykonywać zapytania do bazy i pobierać z niej adresy stron jakie nie zostały jeszcze odwiedzone przez moduł pobierania danych ten z komponentem IdHTTP (indy) i tak cykle muszą się powtarzać do póki wszystkie adresy z bazy nie zostaną odwiedzone. Oczywiście musimy rozpoznawać czy adres - link jest lokalny czy też zewnętrzny, a w celu zapewnienia wydajności moduły programu powinny działać w osobnych wątkach.