Può una macchina interpretare correttamente un’immagine? Una demo realizzata grazie a Cloud Vision API e Cloud Vision Explorer ha trasformato l’antica utopia in realtà.

Questo l’annuncio avvenuto durante GCP NEXT 2016, il più grande evento organizzato da Google sul Cloud quest’anno a San Francisco.

Cloud Vision API è in grado di effettuare l’analisi di immagini caricate su Cloud Platform e di comprendere il contenuto di queste ultime utilizzando potenti modelli di Machine Learning. Classifica le immagini in migliaia di categorie, identifica i singoli oggetti, i volti e le espressioni facciali, trova e legge parole stampate. Può analizzare singole immagini oppure operare in sinergia con Google Cloud Storage per elaborarne centinaia di migliaia. Rileva contenuti inappropriati analogamente alla funzione Safe Search di Google, evidenzia luoghi rilevanti e monumenti importanti, loghi associati a brand. E sino a 1.000 analisi al mese il servizio è gratuito.  

Cloud Vision Explorer

La demo del servizio, battezzata Cloud Vision Explorer, si avvia semplicemente cliccando un bottone: a quel punto Google Chrome rivela la Galassia (Galaxy) di immagini. Galaxy contiene approssimativamente 20-25 gruppi di immagini i cui nomi (ad esempio “mare”, “neve”, “veicolo”) mirano a rifletterne puntualmente il contenuto. Quando l’utente effettua lo zoom su un gruppo, visualizza migliaia di thumbnail correlati. Cliccando su uno di questi compare sulla destra, in termini percentuali decrescenti, quello che il sistema di Machine Learning di Google ha individuato.

Google Cloud Big Data and Machine Learning blog

Google Cloud Big Data and Machine Learning blog

Ma da dove derivano le 80.984 immagini visualizzate con Cloud Vision Explorer? Essenzialmente da Wikimedia Commons, uno dei maggiori free database iconografici, che attualmente contiene più di 650.000 immagini non categorizzate. L’assenza di descrizioni è proprio ciò che rende difficile l’identificazione e di conseguenza l’utilizzo, soprattutto se si tratta di soggetti non comuni o di argomento generico. È qui che Google API Vision entra in gioco e fornisce un alto valore aggiunto. 

Le meccaniche di Galaxy

Una delle sfide insite nello sviluppo della demo iniziale consisteva proprio  nella creazione della Galassia (Galaxy) di immagini. La sfida consisteva nel creare una mappatura compatibile fra l’output di Cloud Vision API e uno spazio in 3D in cui ciascun data point rappresentasse una singola immagine e appartenesse ad un determinato gruppo (cluster), dove immagini simili come “cane” e “gatto” avrebbero dovuto essere più vicine rispetto ad altre, come ad esempio  “veicolo” o “campo di gioco”.  Dopo aver creato i cluster grazie ad una riduzione vettoriale delle immagini in punti tridimensionali, organizzati da algoritmi, e aver associato un colore a ciascun cluster, è stato possibile individuare anche il nome di ogni gruppo utilizzando la label identificativa più comune fra una serie di punti dati. Il modello è stato implementato in Phyton, basandosi principalmente su TensorFlow, la library open source per il Machine Learning sviluppata da Google. L’interfaccia, lato utente, è risultata semplice ed efficace anche per i non addetti ai lavori.

Google Cloud Big Data and Machine Learning blog

Google Cloud Big Data and Machine Learning blog

Big Data, Machine Learning e Data Visualization

Big Data, Machine Learning e Data Visualization hanno evocato sino ad oggi orizzonti legati alla creazione di modelli astratti. Era difficile immaginare come potessero impattare sul mondo reale in modo concreto e immediato. Per sovvertire la piramide cognitiva e procedere ad una sorta di “democratizzazione” del dato e alla sua visualizzazione, Google ha scelto di effettuare un secondo esperimento, analizzando un evento di grande portata: le elezioni americane. I Big Data e la Big Data Analysis avevano già fatto la differenza nel 2012; nel 2016 sono considerate indispensabili nell’agone di una competizione elettorale considerata come la più ricca di dati della storia statunitense. Grazie a un dataset fornito da un centro autorizzato, il team di Google, utilizzando Google BigQuery unitamente a un tool open source, ha convertito Terabyte di dati in visualizzazioni interattive, comprensibili anche ai non esperti. Un punto d’arrivo? A dire il vero siamo solo all’inizio.

*Ha collaborato Lorenzo Ridi,  Software Engineer e Technical Trainer all’interno del Dipartimento Cloud di Noovle, trainer certificato per Google Cloud (uno dei 43 Google Cloud Platform Authorized Trainer al mondo).