Back to Question Center
0

Scraping Web cu Semalt Expert

1 answers:

Răzuirea pe Web, cunoscută și sub denumirea de recoltare web, este o tehnică folosită extrage date de pe site-uri web. Software-ul de recoltare Web poate accesa o rețea direct utilizând HTTP sau un browser web. În timp ce procesul poate fi implementat manual de un utilizator de software, tehnica implică, în general, un proces automatizat implementat folosind un crawler web sau bot.

Răzuirea pe Web este un proces în care datele structurate sunt copiate de pe web într-o bază de date locală pentru revizuiri și recuperări. Aceasta presupune preluarea unei pagini web și extragerea conținutului acesteia. Conținutul paginii poate fi analizat, căutat, restructurat și datele sale copiate într-un dispozitiv de stocare local.

Paginile web sunt construite în general din limbi de marcare bazate pe text, cum ar fi XHTML și HTML, ambele conținând o mare parte a datelor utile sub formă de text. Cu toate acestea, multe dintre aceste site-uri web au fost concepute pentru utilizatori finali umani și nu pentru utilizare automată. Acesta este motivul pentru care software-ul a fost creat.

Există numeroase tehnici care pot fi folosite pentru răsturnarea web eficientă. Unele dintre ele au fost elaborate mai jos:

1. Copierea și lipirea umană

Din când în când, chiar și cea mai bună unealtă exactitatea și eficiența manualului copiilor și copiilor..Acest lucru se aplică în special în situațiile în care site-urile web stabilesc bariere pentru a preveni automatizarea mașinilor.

2. Matching Pattern Matching

Aceasta este o abordare destul de simplă dar puternică utilizată pentru extragerea datelor din paginile web. Poate fi bazat pe comanda grep UNIX sau doar o facilitate de expresie obișnuită a unui anumit limbaj de programare, de exemplu, Python sau Perl.

3. Programarea HTTP

Programarea HTTP poate fi utilizată atât pentru pagini Web statice cât și pentru cele dinamice. Datele sunt extrase prin postarea cererilor HTTP către un server web de la distanță, în timp ce se utilizează programarea socketului.

4. Parsing HTML

Multe site-uri web tind să aibă o colecție extinsă de pagini create dinamic dintr-o sursă de structură de bază, cum ar fi o bază de date. Aici, datele care aparțin unei categorii similare sunt codificate în pagini similare. În parsarea HTML, un program detectează, în general, un astfel de șablon într-o anumită sursă de informații, preia conținutul său și apoi îl traduce într-o formă de afiliat, denumită în continuare "wrapper".

În această tehnică, un program încorporează într-un browser web cu drepturi depline, cum ar fi Mozilla Firefox sau Internet Explorer, pentru a recupera conținutul dinamic generat de scriptul client-side. Aceste browsere pot, de asemenea, să analizeze paginile web într-un arbore DOM, în funcție de programele care pot extrage părți ale paginilor.

6. Recunoașterea adnotărilor semantice

Paginile pe care intenționați să le răsturnați pot cuprinde marcări semantice și adnotări sau metadate care pot fi folosite pentru a găsi fragmente de date specifice. Dacă aceste adnotări sunt încorporate în pagini, această tehnică poate fi privită ca un caz special de analiză DOM. Aceste adnotări pot fi, de asemenea, organizate într-un strat sintactic și apoi stocate și gestionate separat de paginile web. Permite scraperilor să recupereze schema de date, precum și comenzile din acest strat înainte de a elimina paginile.

December 6, 2017
Scraping Web cu Semalt Expert
Reply