100 sposobów na tworzenie robotów sieciowych ebook, ebooki

[ Pobierz całość w formacie PDF ]
23.
Pochwała wyrae< regularnych..................................................................................... 79
24.
Template::Extract: bezproblemowe RSS ....................................................................... 82
25.
Wprowadzenie do XPath ................................................................................................ 85
26.
Pobieranie zasobów za pomoc curl i wget................................................................. 90
27.
wget dla zaawansowanych............................................................................................. 91
28.
Łczenie polece< potokami............................................................................................. 93
29.
Jednoczesne uruchamianie wielu narz+dzi.................................................................. 98
30.
Uycie Web Scraping Proxy.......................................................................................... 100
31.
Zawczasu unikaj kłopotów........................................................................................... 104
32.
Liczenie si+ ze zmiennoAci witryny........................................................................... 107
Rozdział 3. Zbieranie plików multimedialnych ......................................................................... 109
33.
Sprawa dla detektywa: Newgrounds.......................................................................... 109
34.
Sprawa dla detektywa: iFilm........................................................................................ 114
35.
Pobieranie filmów z Biblioteki Kongresu USA ......................................................... 117
36.
Pobieranie obrazów z Webshots .................................................................................. 120
37.
Pobieranie komiksów — dailystrips............................................................................ 124
38.
Kolekcjonowanie kadrów z kamer sieciowych.......................................................... 126
39.
News Wallpaper dla naszej witryny ........................................................................... 130
40.
Zapisywanie samych załczników wiadomoAci POP3............................................. 133
41.
Pobieranie plików MP3 z listy odtwarzania.............................................................. 139
42.
Pobieranie danych z Usenetu za pomoc nget.......................................................... 144
Rozdział 4. Zbieranie danych z baz danych .............................................................................. 147
43.
Uycie yahoo2mbox do pobierania wiadomoAci z grup Yahoo! .............................. 147
44.
Archiwizacja wiadomoAci z grup Yahoo! za pomoc WWW::Yahoo::Groups........149
45.
Zbieranie Buzz z Yahoo!................................................................................................ 153
46.
Pajki w katalogu Yahoo!.............................................................................................. 155
47.
Hledzenie nowoAci Yahoo!............................................................................................. 162
48.
Szukanie rozproszone w Yahoo! i Google.................................................................. 164
49.
Idea mindshare i katalog Yahoo! w Google............................................................... 168
50.
Wyniki z Google bez dzienników sieciowych........................................................... 172
51.
Pajki, Google a wiele domen ...................................................................................... 174
52.
Pobieranie recenzji z Amazon.com.............................................................................. 178
53.
Pobieranie drog pocztow nowo dodanych na Amazon.com recenzji ............... 180
54.
Pobieranie zalece< dla klienta Amazon.com ............................................................. 183
55.
Publikowanie statystyk Amazon.com Associates..................................................... 185
56.
Sortowanie Amazon.com według ocen klientów...................................................... 187
57.
Alexa i produkty podobne na Amazon.com.............................................................. 190
4
|
Spis treci
58.
Uycie Javy do pobierania danych z Alexy ............................................................... 194
59.
Znajdowanie danych o albumie za pomoc FreeDB i Amazon.com..................... 196
60.
Poszerzanie swoich horyzontów muzycznych.......................................................... 203
61.
Horoskop na co dzie<.................................................................................................... 207
62.
Graficzna prezentacja danych: RRDTOOL................................................................. 209
63.
Zbieranie notowa< giełdowych.................................................................................... 213
64.
Wszystko o autorze ........................................................................................................ 216
65.
Bestsellery wydawnictwa O’Reilly a zainteresowanie w bibliotece ...................... 230
66.
Listy ksiek z All Consuming..................................................................................... 233
67.
Hledzenie paczek FedEx................................................................................................. 238
68.
Szukanie nowych komentarzy w dziennikach sieciowych ..................................... 240
69.
Agregowanie RSS i przesyłanie zmian ....................................................................... 244
70.
Uycie Link Cosmos na Technorati............................................................................. 251
71.
Szukanie powizanych pakietów RSS......................................................................... 254
72.
Automatyczne znajdowanie interesujcych nas dzienników sieciowych............. 264
73.
Pobieranie zapowiedzi programu telewizyjnego...................................................... 267
74.
Jaka jest pogoda u Twojego goAcia? ............................................................................ 271
75.
OkreAlanie trendów według lokalizacji ...................................................................... 274
76.
Znajdowanie najlepszych połcze< kolejowych........................................................ 279
77.
Palcem po mapie............................................................................................................. 282
78.
Angielski słowniczek ..................................................................................................... 287
79.
Zwizki słów w Lexical Freenet................................................................................... 291
80.
Zmiana formatowania raportów Bugtraq .................................................................. 294
81.
Zakładki w sieci via e-mail ........................................................................................... 298
82.
Publikacja w swojej witrynie zakładki Ulubione ...................................................... 304
83.
Analiza cen gier w GameStop.com.............................................................................. 311
84.
Na zakupy z PHP ........................................................................................................... 313
85.
Łczenie wyników z rónych wyszukiwarek............................................................ 319
86.
Robot Karaoke................................................................................................................. 323
87.
Przeszukiwanie Biur na Rzecz Poprawy JakoAci Usług........................................... 326
88.
Szukanie ocen sanitarnych............................................................................................ 329
89.
NieprzyzwoitoAci mówimy nie!................................................................................... 332
Rozdział 5. W trosce o własny stan posiadania ....................................................................... 335
90.
Uycie crona do automatyzacji zada< ........................................................................ 335
91.
Terminowe wykonywanie zada< bez crona .............................................................. 337
92.
Tworzenie kopii witryn za pomoc wget i rsync...................................................... 341
93.
Gromadzenie wyników poszukiwa< .......................................................................... 344
Spis treci
5
|
Rozdział 6. Teraz my dla innych................................................................................................. 349
94.
Uycie XML::RSS do przekształcania danych ........................................................... 350
95.
Umieszczanie w witrynie nagłówków RSS................................................................ 353
96.
Udost+pniamy nasz witryn+ dla wyrae< regularnych......................................... 356
97.
Udost+pnianie naszych zasobów dla automatów za pomoc interfejsu REST .......362
98.
Udost+pnianie zasobów przy uyciu XML-RPC....................................................... 365
99.
Tworzenie interfejsu IM ................................................................................................ 369
100.
Co dalej?........................................................................................................................... 372
Skorowidz .................................................................................................................................... 375
6
|
Spis treci
1.
ROZDZIAŁ PIERWSZY
Łagodne wprowadzenie
Sposoby 1. – 7.
W sieci s obecnie ponad trzy miliardy stron, wic kady eglarz cyberprzestrzeni wcze-
niej czy póniej musi zada sobie dwa pytania: gdzie znale co wartociowego i co
mona z tym zrobi ? Kady ma własne pojcie o tym, co jest wartociowe, wikszo
ludzi ma te róne dobre pomysły o tym, jak takie rzeczy wykorzysta . S takie zaktki
sieci, w których przekształcanie danych do innych celów prowadzi do nagłych olnie(,
a to z kolei staje si pocztkiem nagłej eksplozji nowych danych.
Z punktu widzenia sieci dopiero niedawno pojawiły si pierwsze narzdzia ułatwiajce
korzystanie z powszechnie dostpnych danych. Kiedy serwis Google udostpnił swoje
serwisy wyszukiwawcze za porednictwem interfejsów API (zajrzyj do ksiki Google
Hacks), podobny krok szybko zrobił Amazon.com (zajrzyj do Amazon Hacks); w jednym
i drugim wypadku owocem tych decyzji było pojawienie si nowych narzdzi. W tym
krótkim i przyjemnym rozdziale przedstawimy Czytelnikom eleganck sztuk zbierania
danych i uywania pajków: czym ona jest, a czym nie jest, co jest zwykle dozwolone,
a co niesie ze sob ryzyko. Powiemy, jak szuka alternatywnych metod dostpu do inte-
resujcych danych i jak pozyska sobie przychylno autorów witryn (a tak naprawd to
przekaza im pewn wiedz), którzy na nasz automatyzacj patrz niechtnie.
Pajki i zbieranie danych: kurs na zderzenie
Odpowiemy tu na pytania: dlaczego i w jakim celu instaluje si pajki i zbiera dane.
SPOSÓB
1.
Istnieje mnóstwo rozmaitych programów słucych do zbierania i odsiewania informacji,
łczenia ze sob zasobów oraz porównywania danych — liczba tych programów stale
ronie. Ludzie to tylko cz znacznie wikszego i zautomatyzowanego równania. Jednak
mimo takiej obfitoci istniejcych programów, podstawowe zasady ich działania pozostaj
niezmienne.
Pajki to programy wdrujce po sieci, słuce do zbierania informacji. W dziennikach
witryn sieciowych mona znale programy
User-Agent
, takie jak
Googlebot
,
Scooter
czy
MSNbot
. S to włanie pajki lub, jak wol je nazywa z angielska niektórzy, boty.
W ksice tej bdziemy stale mówi o pajkach i programach zbierajcych — czym róni
si jedne od drugich? Ogólnie rzecz biorc, jedne i drugie wdruj po internecie i zbieraj
róne dane. Na potrzeby tej ksiki najlepiej traktowa pajki jako programy pobierajce
Łagodne wprowadzenie
17
|
  [ Pobierz całość w formacie PDF ]

  • zanotowane.pl
  • doc.pisz.pl
  • pdf.pisz.pl
  • marucha.opx.pl