Back to Question Center
0

Semalt - Cum să scrapeți paginile Web?

1 answers:

Beautiful Soup este o bibliotecă Python utilizat pe scară largă pentru a răzui paginile web prin crearea unui parse din documente XML și HTML. Decuparea pe Web, o tehnică de extragere a datelor de pe site-uri web și pagini, este utilizată pe scară largă în domeniile de analiză și gestionare a datelor. În majoritatea cazurilor, limbajul de programare Python este o condiție prealabilă pentru știința datelor.

Python 3 are unelte de răzuire și module pe care le puteți aplica la proiectul de gestionare a datelor. În prezent rulează ca Super Soup 4, acest modul este compatibil atât cu Python 3 cât și cu Python 2 - the capital of delaware. 7. Modulul suprem de supă 4 este, de asemenea, capabil să creeze un arbore de analiză pentru supa de etichete neînchise. În acest tutorial, veți învăța cum să răzuți pagina și să scrieți datele răzuite într-un fișier CSV.

Noțiuni de bază

Pentru a începe, configurați un mediu de codare Python pentru server sau locale pe PC. Ar trebui să instalați, de asemenea, modul Sușă și Cereri pe mașina dvs.Cunoașterea muncii cu ambele module este, de asemenea, o condiție prealabilă necesară. Familiaritatea cu etichetarea și structura HTML este, de asemenea, un avantaj suplimentar.

În acest context, datele reale din Galeria Națională de Artă vor fi folosite pentru a vă ajuta să înțelegeți cum să utilizați Supa de Sus 4. Galeria Nationala de Arta cuprinde 120.000 de piese realizate de aproximativ 13.000 de artisti. Arta se bazează în Washington D. C, Statele Unite ale Americii.

Extracția de date Web cu Beautiful Soup nu este atât de complicată. De exemplu, dacă vă concentrați pe litera Z, marcați și notează primul nume din listă. În acest caz, primul nume este Zabaglia, Niccola. Pentru consistență, indicați numărul de pagini și numele ultimului artist din acea pagină.

Pentru a importa biblioteci, activați mediul de programare Python 3. Verificați dacă vă aflați în același director cu mediul de programare. Rulați următoarea comandă pentru a începe. my_env / bin / activare.

Creați un fișier nou și începeți să importați biblioteci frumoase supe și cereri. Biblioteca de solicitări vă va permite să utilizați HTTP în programele dvs. Python în formate ușor de citit. Supa frumoasă, pe de altă parte, lucrează la răzuirea rapidă a paginilor. Utilizați bs4 pentru a importa Supă frumoasă.

Cum să colectezi și să analizezi o pagină web

Folosind Requests colectează URL-ul primei tale pagini. Adresa URL a primei pagini va fi alocată paginii de variabilă. Construiți un obiect BeautifulSoup din Solicitări și analizați obiectul din parserul Python.

În acest tutorial, scopul este de a colecta legăturile și numele artiștilor. De exemplu, puteți aduna datele artiștilor și naționalitățile. Pentru utilizatorii de Windows, faceți clic dreapta pe numele artistului. În acest caz, utilizați Zabaglia, Niccola. Pentru utilizatorii de Mac OS, apăsați "CTRL" și faceți clic pe nume. Faceți clic pe meniul "Inspectați elementul" care afișează ferestrele de pe ecran pentru a accesa instrumentele dezvoltatorilor web. Tipărește numele artistului pentru a face o supă frumoasă să analizeze rapid un copac.

Pentru a elimina link-urile din partea de jos a paginii dvs. web, inspectati DOM prin click dreapta pe elementul. Veți identifica că legăturile se află sub un tabel HTML. Folosind supa frumoasă, folosiți metoda "descompune" pentru a elimina etichetele din arborele de analiză.

Nu trebuie să imprimați întreaga etichetă a link-ului, folosiți Sușul frumos pentru a elimina materialul dintr-o etichetă. De asemenea, puteți să capturați URL-uri asociate artiștilor utilizând Beautiful Soup 4.

Fișierul CSV vă va permite să stocați date structurate într-un text simplu, un format care este folosit în cea mai mare parte pentru foi de date. Sunt recomandate cunoștințe despre manipularea fișierelor text simplu în Python.

Extracția de date Web este folosită pentru a răsturna paginile și pentru a obține informații. Fiți atenți la site-urile web de care beneficiați informații de extracție. Unele site-uri dinamice restricționează extragerea datelor web pe site-urile lor. Pentru a răsturna pagina cu Beautiful Soup și Python 3 este atât de simplu.

December 22, 2017