Social Links Search User Login Menu
Tools
Close
Close

Articoli Low-Code Italia

Un'introduzione al web scraping no-code
La Redazione 505

Un'introduzione al web scraping no-code

Il web scraping è una pratica che qualsiasi professionista dei dati deve conoscere ed utilizzare.

di Otávio Simões

Il web scraping è una pratica che qualsiasi professionista dei dati deve conoscere ed utilizzare.

Come sapete, la vita reale non è un set di dati Kaggle.

La maggior parte dei dati non sono ordinati e pronti all'uso, strutturati in un file o in un database, in attesa che tu li utilizzi.

Se me lo chiedete, però, direi che raccogliere dati dal web è incredibilmente divertente. Quindi, Kaggle o no, dovresti essere a posto dopo aver letto questo tutorial.

Fin dal primo giorno, sono stato stupito nel vedere le cose fatte automaticamente. Enormi quantità di dati - che richiederebbero mesi di lavoro ingombrante per essere raccolti manualmente - possono ora essere raccolti in una manciata di secondi.

Di solito, questi processi sono fatti con l'aiuto di alcuni linguaggi di programmazione molto potenti, come Python (il mio preferito), Ruby o anche C++.

Anche se molto efficace, lo scenario di cui sopra rende il web scraping fuori dalla portata delle persone senza un background di programmazione.

Qualche anno fa - prima di imparare a programmare - stavo cercando di raccogliere dati sulle partite di calcio copiandoli e incollandoli manualmente in un foglio Excel. Quando mi sono reso conto di quanto tempo ci avrei messo, ho rinunciato.

In questo articolo, vedremo come uno strumento di scraping no-code può essere la soluzione -- non solo per i non codificatori -- ma anche per chiunque possa usare dei dati raccolti con pochi click -- o anche virtualmente senza alcun click.

Come iniziare

Il primo grande vantaggio di uno strumento no-code per il web scraping è, ovviamente, l'interfaccia amichevole e la mancanza di un requisito di codifica.

Inoltre, questo approccio permette di approfittare di caratteristiche che nessun linguaggio di programmazione potrebbe fornire.

Prima di tutto, se il vostro bisogno è quello di raccogliere dati dai siti web più famosi del mondo, allora tutto quello che dovete fare è... beh, niente.

Sì, l'intero scraper è già integrato per voi.

Image

Diciamo che voglio raccogliere informazioni su un particolare prodotto su Amazon. Voglio dire, è quasi natale, giusto?

Tutto quello che devi fare è selezionare il modello di Amazon e poi dire loro il codice postale e quello che stai cercando:

Image

Ecco i dati che abbiamo raccolto con un paio di clic e che possono essere facilmente esportati in un foglio Excel, un file CVS, o anche un database SQL.

Image

Nessuna perdita di tempo per scrivere codice o configurare qualsiasi ambiente! Non c'è niente di più facile di questo.

Andare più a fondo

Ma naturalmente, se stiamo parlando qui di non essere dipendenti da un linguaggio di programmazione, non saremo dipendenti dai modelli integrati, non importa quanto ci rendano la vita facile in alcuni punti.

Un tale strumento ha ovviamente bisogno di essere in grado di raschiare qualsiasi sito web e non solo pagine pre-impostate. Il bello qui è che si può raschiare qualsiasi pagina che si desidera con praticamente nessun click.

Come esempio, usiamo quotes.toscrape.com -- un sito web costruito per scopi di scraping-apprendimento, quindi è una buona scelta per questo esercizio.

Se inserisci questo URL (o qualsiasi URL tu voglia) si aprirà un browser integrato e ci sarà un pulsante per rilevare automaticamente i dati della pagina web.

Questo è un algoritmo di apprendimento automatico, che è addestrato per identificare i modelli sul sito web. Mostra all'utente come sono strutturati i dati, così come il modo migliore per raccoglierli.

Scegliendo questo approccio sul sito web che stiamo usando come esempio, tutte le informazioni su ogni preventivo sono già identificate e si può anche vedere un'anteprima dei dati.

Image

Ora, il pop-up Tips continua a renderti la vita più facile suggerendoti nuovi passi per rendere il tuo scraper più potente. In questo caso, puoi facilmente creare una paginazione per afferrare le citazioni da tutte le pagine del sito web.

Selezionare i dati manualmente

OK, gli algoritmi di apprendimento automatico sono grandiosi, ma a volte non possono fare tutto per te ed è per questo che è importante avere la possibilità di scegliere manualmente i dati che vuoi raccogliere.
Qui stiamo raccogliendo dati sulle criptovalute.

Guardando il sito web, possiamo vedere una tabella con le prime dieci criptovalute (secondo questo sito) dove sono disponibili informazioni come prezzo, market cap, volume, ecc. Questo è quello che stiamo cercando.

Se usi il pulsante di rilevamento automatico su questa particolare pagina, non selezionerà i dati di questa tabella. Selezionerà i titoli delle notizie in basso.

Voglio dire, è fantastico che l'algoritmo crei automaticamente un modo per cliccare sul pulsante "Show more" e scorrere la pagina per altre notizie. Purtroppo, non sono i dati per cui siamo venuti.

Image

E proprio così, è possibile selezionare ed estrarre praticamente tutto da qualsiasi pagina che si desidera.


Altri vantaggi

Oltre a tutto questo, il web scraping no-code ha anche tutti i vantaggi di un software come Octoparse.

Vantaggi come una dashboard dove è possibile monitorare tutte le attività di scraping allo stesso tempo, la possibilità di eseguire le attività localmente o nel loro cloud dove una completa infrastruttura di indirizzi IP e un backup dei dati sono già forniti, la pianificazione delle attività e la facile connessione ai database SQL.

Una caratteristica aggiunta di recente e molto cool è la possibilità di esportare i dati che avete memorizzato sul cloud a diversi tipi di applicazioni come Dropbox, Google Sheets, MongoDB o anche per caricare un nuovo file direttamente su Google Drive.

Tutto questo può essere fatto collegando l'account dell'utente in ciascuna di queste applicazioni all'account Octoparse attraverso l'integrazione con Zapier, che permette di impostare un trigger in modo che i tuoi dati possano essere automaticamente memorizzati come vuoi tu non appena vengono raccolti dal web. Tutto questo senza alcun bisogno di codice, naturalmente.

Ricapitolando

Come abbiamo visto finora, il web scraping ha infranto le barriere della programmazione e ora può essere fatto in un modo molto più semplice e facile, il tutto beneficiando di un'interfaccia amichevole. La cosa più importante è che non è necessaria una sola riga di codice!

Rate article

Nessun voto
Vota questo articolo:
Nessun voto

Condividi

Stampa

Comment

Collapse Expand Comments (0)
You don't have permission to post comments.
Back To Top