Facebook descrive il contenuto dell’immagine nel tag Alt

Vuoi sapere cosa Facebook riesce a riconoscere nelle immagini che hai pubblicato? Questo articolo spiega perché succede, come rintracciare le parole che Facebook associa alle immagini, come trovare immagini secondo le parole associate, quale uso farne.

Perché Facebook descrive l’immagine con parole

Il tag Alt serve per contenere il testo alternativo da mostrare quando l’immagine non viene visualizzata. Facebook intende usarlo per descrivere gli elementi di un’immagine a vantaggio di chi ha gravi problemi di vista, inserendovi le parole ricavate dalla funzionalità di Automatic Alternative Text (AAT) . Lo sviluppo è stato curato dal team Accessibility incaricato di gestire l’accessibilità dell’interfaccia grafica per renderla fruibile con facilità a qualsiasi tipologia d’utente.

In tal modo, gli utenti dotati di lettori di schermo su iOS, incontrando una fotografia potranno ascoltare le parole contenute in questo tag per avere un’idea del suo contenuto.

Questa funzione è stata annunciata ad aprile 2016 da vari blog, tra cui Wired, WebNews, su Facebook nella sezione stampa,  al blog Code , con un video dimostrativo.

Come trovare il tag

La descrizione è disponibile solo per le immagini caricate da qualsiasi profilo o pagina, non esiste sulle immagini mostrate quando si incolla un link verso un sito web.

Nella pagina Facebook SimoneLeopizzipage è disponibile un video con titolo“Facebook analizza le nostre foto: ecco come” riportato anche qui.

Viene visualizzato il codice sorgente nell’ambiente iOS, vengono evidenziate alcune parole scritte tra gli apici di un tag Alt che si riconosce facilmente perché il testo contenuto comincia con “L’immagine può contenere:“ o l’equivalente in lingua inglese “Image may contain:” ed è seguito da alcune parole separate da virgola, in grado di fornire una descrizione a grandi linee di cosa compare nell’immagine mostrata sul monitor.

Per trovare la descrizione bisogna posizionare il mouse sull’immagine desiderata e visualizzare il codice sorgente, secondo le modalità previste dal browser preferito. Si può ridurre la quantità di codice da considerare e andare solo a quello corrispondente all’immagine scelta, bisogna cliccare sull’immagine per ingrandirla sul fondo nero. Nel codice così ottenuto bisogna cercare il testo “L’immagine può contenere:” oppure “Image may contain:”. Un esempio di tag estratto dal codice sorgente visualizzato dal browser:

<img class=”spotlight” src=”htps://z-1-scontent.xx.fbcdn.net/v/t1.0-9/246631_311198324_131_n.jpg?oh=750aef24410d5fc5d561&oe=59241″ alt=”L’immagine può contenere: 4 persone”

Si può usare una estensione per Google Chrome o Firefox, per visualizzare sull’immagine i tag indicati come mostrato nelle immagini di esempio nella pagina indicata.


Parole utilizzate

Le parole sono scritte nella lingua usata dell’utente che sta leggendo il News Feed.

Secondo il blog Code di Faebook , il testo viene composto con il numero di persone presenti nell’immagine, seguito dall’elenco degli oggetti e dal luogo. Un centinaio di parole sono state organizzate in queste categorie:

  • trasporto: auto, barca, aeroplano, bicicletta, treno; strada, motocicletta, autobus
  • natura: montagna, neve, cielo, oceano, acqua; spiaggia, onda, sole, erba
  • sport: tennis, nuoto, stadio, basket, baseball, golf
  • cibo: gelato, sushi, pizza, dolce, caffè
  • aspetto della persona :bambino, occhiali da sole, barba, sorridente, gioielli, scarpe
  • posizione delle persone presenti: seduta, primo piano, in piedi, ballando
  • ambientazione: esterno, natura, ristorante, spazio al chiuso, spazio
  • altri tipi: selfie, testo, sMS, nessun testo alternativo automatico disponibile.

Con questo approccio è possibile fornire una descrizione facilmente comprensibile e piuttosto realistica. Alcuni esempi:

  • L’immagine può contenere: cielo, spazio all’aperto, natura e acqua.
  • L’immagine può contenere: fiore e natura
  • L’immagine può contenere: cane, spazio all’aperto e natura
  • L’immagine può contenere: 2 persone, persone sedute e occhiali_da_sole
  • L’immagine può contenere: una o più persone, folla, fiore e spazio all’aperto

Algoritmo usato

Come indicato nel blog Code di Facebook, vengono usati algoritmi basati su deep convolutional neural network. Alcuni termini impiegati per denotare questi algoritmi sono “image annotation, image description, object recognition, object detection, machine learning, computer vision”, cercandoli in Google si possono trovare tanti articoli, libri, tutorial, analisi ecc. Si tratta, infatti, di tecniche note e usate da tanti altri servizi web, per esempio Microsoft.

Prestazioni

Facebook afferma nel blog Code di potere riconoscere almeno un oggettoin più del 50% delle immagini pubblicate, con un livello di confidenza dal 50% al 70%, infatti la frase contiene “può” per indicare una possibilità.

Sul sito Inverse.com si possono notare alcune immagini per mettere alla prova questo approccio di annotazione.

Cercare immagini secondo la descrizione

Con le Graph API non è possibile cercare le immagini secondo queste parole.

Si può trovare qualcosa usando Google con la stringa  site:https://www.facebook.com “L’immagine può contenere:”  e altre ricerche simili, per trovare fotografie con la descrizione indicata che non hanno restrizioni di privacy. Si ottengono dei risultati perché Google memorizza il testo nel tag Alt. Nella immagine seguente un esempio.

immagine-puo-contenere-google

Questa descrizione può essere aggiunta dall’utente al testo descrittivo dell’immagine pubblicata e compare nel News Feed, come si nota nell’immagine precedente, diventando disponibile alla ricerca interna in Facebook. Usando la lingua English (US) come lingua predefinita del profilo personale, si può scrivere “L’immagine può contenere: 1 persona” e altre stringhe simili per avere un risultato come nell’immagine seguente.

immagine-puo-contenere-facebook

Alcuni utilizzi

Se si vuole comunicare in maniera efficacia un’immagine, conviene verificare cosa viene descritto per capire se corrisponde a cosa si vuole comunicare, ed eventualmente decidere di cancellare o modificare l’immagine.

Si può creare un riepilogo di quali parole sono impiegate più o meno spesso e quali parole sono associate alla maggiore o minore diffusione.

L’analisi della concorrenza su queste informazioni permette di capire quali immagini sta cercando di spingere un concorrente.

Presentazione libro a Fiera Milano SMAU 2016

SMAU libro "Social Media Mining"
Presentazione libro “Social Media Mining” a Fiera SMAU Milano 2016.

Il 27 ottobre 2016 Roberto Marmo ha presentato il suo libro “Social Media Mining” alla Fiera SMAU Milano 2016 nell’ambito del workshop “Estrarre informazioni da una Pagina Facebook“. Il libro è pubblicato con l’editore Hoepli che lo vende scontato del 15% dal suo catalogo online.

Gli argomenti discussi davanti a numerose persone sono disponibili nella presentazione su Slideshare.Net.

Per vedere una fotografia di Roberto Marmo mentre svolge un workshop in Fiera SMAU si può andare al sito http://www.smau.it/milano16/ e aspettare lo scorrimento delle immagini fino alla seconda schermata.

Misura il tuo grado di separazione su Facebook

La teoria dei sei gradi di separazione è un’ipotesi secondo cui ogni persona può essere collegata a qualunque altra persona o cosa attraverso una catena di relazioni con non più di 5 intermediari, nel senso che usa persona A conosce un’altra persona B che a sua volta conosce la persona C e così via fino alla persona E ma, probabilmente, le persone coinvolte come A e C o A ed E non si conoscono mentre si conoscono A e B oppure B e C. La teoria fu formulata per la prima volta nel 1929 dallo scrittore ungherese Frigyes Karinthy nel racconto pubblicato nel volume Catene. (Fonte https://it.wikipedia.org/wiki/Sei_gradi_di_separazione)

Nel 1967 il sociologo americano Stanley Milgram trovò un sistema per testare la teoria, che egli chiamò “teoria del mondo piccolo” come descritto su https://it.wikipedia.org/wiki/Teoria_del_mondo_piccolo

Nel 2008 è stato pubblicato uno studio di Microsoft sulle relazioni create con Messenger partito nel giugno del 2006, come descritto su http://www.corriere.it/scienze/08_agosto_02/Gradi_separazione_Messenger_Microsoft_6ecaf3f2-60b4-11dd-94c1-00144f02aabc.shtml i risultati indicano che fra due utenti del programma vi sono in media 6,6 gradi di separazione

Anche Facebook ha eseguito varie ricerche su questa tematica, forte dell’enorme massa di dati posseduti. All’inizio di febbraio 2016 il blog dei ricercatori Facebook ha pubblicato su https://research.facebook.com/blog/three-and-a-half-degrees-of-separation/ con titolo “Three and a half degrees” of separation  i suoi risultati con l’aggiunta dell’indicazione del grado relativa all’account con cui si visita la pagina. Per citare un esempio, Mark Zuckerberg risulta avere un grado 3.17, la maggior parte dei gradi varia tra 2.9 e 4.2, la media dei gradi risulta 3,57, precisando l’uso di dati aggregati e resi anonimi per prevenire che l’identità di una persona sia connessa con informazioni.