Il web scraping è una tecnica utile a prelevare dati dal web, quando i dati non sono già disponibili in formato tabellare

Foto di European Parliament, Flickr

Foto di European Parliament, Flickr

Lo scraping, dall’inglese “grattare”, consiste proprio nell’andare a reperire dati pubblicato in Rete che ci serve avere rappresentati in tabelle al fine, da esempio, di rielaborarli. Durante l’ultimo festival del giornalismo di Perugia Linda Sandvik ne ha parlato in un workshop finalizzato a spiegare come attuare nel modo più semplice (e senza avere conoscenze tecniche specifiche) questa tecnica. Come fare allora?

Copia e incolla. Il modo più semplice è ovviamente quello di copiare i dati dalla pagina web per incollarli sul foglio di calcolo dopo avere verificato che la licenza con cui i dati sono pubblicati lo consenta (ovviamente, va sempre citata la fonte dalla quale si copia). Questo è però possibile solo se le informazioni sono già rappresentate in tabella.

Estrarre dati da pdf. Nel caso in cui si trovino pubblicato dei file in formato .pdf, è possibile riprendere i dati attraverso  un software open source come Tabula, che una volta installato richiede semplicemente l’upload del file .pdf che dopo la rielaborazione mostra una tabella da poter riesportare in formato .csv o .ods. Altro strumento molto semplice e gratuito è l’app ScraperWiki, piattaforma di strumenti di scraping condiviso.

Estrarre dati da pagine web. Nel caso in cui le informazioni che ci interessano siano pubblicate in pagine web, è possibile utilizzare alcuni strumenti da hoc che possono aiutarci a selezionare l’area dalla quale prelevare informazioni per riportarle in forma tabella. Uno di questi è una estensione per il browser Chrome e si chiama Scraper. Dopo averla installata è sufficiente selezionare i dati da estrarre, cliccare sul tasto desto e poi su Scrape similar: apparirà una finestra con i dati già organizzati in tabella e con la possibilità di agire sull’html per “aggiustare” la nuova tabella.  Altro potente strumento è import. io che non ha bisogno di installazioni, visto che offre la possibilità di indicare direttamente nel sito l’indirizzo della pagina da “scrapare”. La cosa interessante di questo strumento è l’integrazione con plot.ly, servizio che consente la rappresentazione grafica dinamica dei dati.

Il passo successivo (e meno immediato) è quello di costruire un web scraper, ovvero un applicativo che consente di estrarre automaticamente dati dalle pagine web. Ma questo richiede una conoscenza di linguaggi di programmazione. Ci fermiamo qui e aspettiamo che qualcuna di voi ci racconti la sua esperienza di scraping!