Značilnosti spletnega strgala - Semalt Expert

Spletni strgalec je razširitev brskalnika Chrome, namenjena pridobivanju podatkov s spletnih strani. S to razširitvijo lahko ustvarite zemljevid mesta ali načrt, ki prikazuje najprimernejši način za krmarjenje po spletnem mestu in pridobivanje podatkov iz njega.

Po vašem zemljevidu spletnega mesta bo spletni brskalnik krmaril po izvornem spletnem mestu in strgal potrebno vsebino. Izvlečene podatke je mogoče izvoziti v obliki CSV ali drugih formatov. Poleg tega lahko to razširitev brez težav namestite iz trgovine Chrome Store.

Nekatere funkcije spletnega strgala so opisane spodaj

  • Sposobnost strganja več strani

Orodje lahko hkrati pridobi podatke iz več spletnih strani, če je to določeno v zemljevidu spletnega mesta. Če morate izvleči vse slike s 100-stranskega spletnega mesta, vam bo morda zamudno, da preverite vsako stran in ugotovite, katere vsebujejo slike in katere ne. Torej, lahko orodje naročite, da na vsaki strani preveri slike.

  • Orodje shranjuje podatke v lokalno shrambo CouchDB ali brskalnika
  • Orodje shranjuje zemljevide zemljevidov in izvlečene podatke bodisi v lokalnem pomnilniku brskalnika ali CouchDB
  • Lahko ekstrahira več podatkov

Ker orodje lahko deluje z več vrstami podatkov, lahko uporabniki na isti strani izberejo več vrst podatkov za črpanje. Na primer, hkrati lahko strga slike in besedilo s spletnih strani

  • Strpite podatke z dinamičnih strani

Spletni strgalec je tako močan, da lahko strga podatke tudi s tako dinamičnih strani, kot sta Ajax in JavaScript

  • Sposobnost ogleda izvlečenih podatkov

Orodje uporabnikom omogoča ogled strganih podatkov, še preden so shranjeni na določenem mestu

  • Izvabljene podatke izvozi kot CSV

Spletni strgalec privzeto izvozi izvlečene podatke kot CSV, lahko pa jih izvaža tudi v drugih oblikah.

  • Izvozi in uvozi zemljevide spletnih strani

Morda boste morali uporabiti zemljevide spletnih strani večkrat, tako da lahko orodje na zahtevo uvaža in izvaža zemljevide.

  • Odvisno samo od brskalnika Chrome

Žal je to precej pomanjkljivost kot prednost. Deluje izključno s brskalnikom Chrome.

Druga orodja za strganje podatkov

Obstaja nekaj preprostih orodij za strganje podatkov, ki so lahko tudi koristna za vas. Nekatere so navedene spodaj.

1. Scrap

Ta okvir se lahko uporabi za strganje vse vsebine vašega spletnega mesta. Strganje vsebine ni njegova edina funkcija. Uporablja se lahko tudi za samodejno testiranje, spremljanje, rudarjenje podatkov, pajkanje po spletu, strganje po zaslonu in številne druge namene.

2. Wget

Wget lahko uporabite tudi za enostavno strganje celotnega spletnega mesta. Toda pri tem orodju je majhna pomanjkljivost, ki ne more razbrati datotek CSS.

3. Z naslednjim ukazom lahko strgate vsebino svojega spletnega mesta, preden ga potegnete narazen:

file_put_contents ('/ nekaj / imenik / scrape_content.html', file_get_contents ('http://google.com'));