Facebook descrive il contenuto dell’immagine nel tag Alt

Vuoi sapere cosa Facebook riesce a riconoscere nelle immagini che hai pubblicato? Questo articolo spiega perché succede, come rintracciare le parole che Facebook associa alle immagini, come trovare immagini secondo le parole associate, quale uso farne.

Perché Facebook descrive l’immagine con parole

Il tag Alt serve per contenere il testo alternativo da mostrare quando l’immagine non viene visualizzata. Facebook intende usarlo per descrivere gli elementi di un’immagine a vantaggio di chi ha gravi problemi di vista, inserendovi le parole ricavate dalla funzionalità di Automatic Alternative Text (AAT) . Lo sviluppo è stato curato dal team Accessibility incaricato di gestire l’accessibilità dell’interfaccia grafica per renderla fruibile con facilità a qualsiasi tipologia d’utente.

In tal modo, gli utenti dotati di lettori di schermo su iOS, incontrando una fotografia potranno ascoltare le parole contenute in questo tag per avere un’idea del suo contenuto.

Questa funzione è stata annunciata ad aprile 2016 da vari blog, tra cui Wired, WebNews, su Facebook nella sezione stampa,  al blog Code , con un video dimostrativo.

Come trovare il tag

La descrizione è disponibile solo per le immagini caricate da qualsiasi profilo o pagina, non esiste sulle immagini mostrate quando si incolla un link verso un sito web.

Nella pagina Facebook SimoneLeopizzipage è disponibile un video con titolo“Facebook analizza le nostre foto: ecco come” riportato anche qui.

Viene visualizzato il codice sorgente nell’ambiente iOS, vengono evidenziate alcune parole scritte tra gli apici di un tag Alt che si riconosce facilmente perché il testo contenuto comincia con “L’immagine può contenere:“ o l’equivalente in lingua inglese “Image may contain:” ed è seguito da alcune parole separate da virgola, in grado di fornire una descrizione a grandi linee di cosa compare nell’immagine mostrata sul monitor.

Per trovare la descrizione bisogna posizionare il mouse sull’immagine desiderata e visualizzare il codice sorgente, secondo le modalità previste dal browser preferito. Si può ridurre la quantità di codice da considerare e andare solo a quello corrispondente all’immagine scelta, bisogna cliccare sull’immagine per ingrandirla sul fondo nero. Nel codice così ottenuto bisogna cercare il testo “L’immagine può contenere:” oppure “Image may contain:”. Un esempio di tag estratto dal codice sorgente visualizzato dal browser:

<img class="spotlight" src="htps://z-1-scontent.xx.fbcdn.net/v/t1.0-9/246631_311198324_131_n.jpg?oh=750aef24410d5fc5d561&oe=59241" alt="L'immagine può contenere: 4 persone"

Si può usare una estensione per Google Chrome o Firefox, per visualizzare sull’immagine i tag indicati come mostrato nelle immagini di esempio nella pagina indicata.


Parole utilizzate

Le parole sono scritte nella lingua usata dell’utente che sta leggendo il News Feed.

Secondo il blog Code di Faebook , il testo viene composto con il numero di persone presenti nell’immagine, seguito dall’elenco degli oggetti e dal luogo. Un centinaio di parole sono state organizzate in queste categorie:

  • trasporto: auto, barca, aeroplano, bicicletta, treno; strada, motocicletta, autobus
  • natura: montagna, neve, cielo, oceano, acqua; spiaggia, onda, sole, erba
  • sport: tennis, nuoto, stadio, basket, baseball, golf
  • cibo: gelato, sushi, pizza, dolce, caffè
  • aspetto della persona :bambino, occhiali da sole, barba, sorridente, gioielli, scarpe
  • posizione delle persone presenti: seduta, primo piano, in piedi, ballando
  • ambientazione: esterno, natura, ristorante, spazio al chiuso, spazio
  • altri tipi: selfie, testo, sMS, nessun testo alternativo automatico disponibile.

Con questo approccio è possibile fornire una descrizione facilmente comprensibile e piuttosto realistica. Alcuni esempi:

  • L’immagine può contenere: cielo, spazio all’aperto, natura e acqua.
  • L’immagine può contenere: fiore e natura
  • L’immagine può contenere: cane, spazio all’aperto e natura
  • L’immagine può contenere: 2 persone, persone sedute e occhiali_da_sole
  • L’immagine può contenere: una o più persone, folla, fiore e spazio all’aperto

Algoritmo usato

Come indicato nel blog Code di Facebook, vengono usati algoritmi basati su deep convolutional neural network. Alcuni termini impiegati per denotare questi algoritmi sono “image annotation, image description, object recognition, object detection, machine learning, computer vision”, cercandoli in Google si possono trovare tanti articoli, libri, tutorial, analisi ecc. Si tratta, infatti, di tecniche note e usate da tanti altri servizi web, per esempio Microsoft.

Prestazioni

Facebook afferma nel blog Code di potere riconoscere almeno un oggettoin più del 50% delle immagini pubblicate, con un livello di confidenza dal 50% al 70%, infatti la frase contiene “può” per indicare una possibilità.

Sul sito Inverse.com si possono notare alcune immagini per mettere alla prova questo approccio di annotazione.

Cercare immagini secondo la descrizione

Con le Graph API non è possibile cercare le immagini secondo queste parole.

Si può trovare qualcosa usando Google con la stringa “site:https://www.facebook.com “L’immagine può contenere:” e simili per trovare fotografie con la descrizione indicata che non hanno restrizioni di privacy. Si ottengono dei risultati perché Google memorizza il testo nel tag Alt. Nella immagine seguente un esempio.

immagine-puo-contenere-google

Questa descrizione può essere aggiunta dall’utente al testo descrittivo dell’immagine pubblicata e compare nel News Feed, come si nota nell’immagine precedente, diventando disponibile alla ricerca interna in Facebook. Usando la lingua English (US) come lingua predefinita del profilo personale, si può scrivere “L’immagine può contenere: 1 persona” e altre stringhe simili per avere un risultato come nell’immagine seguente.

immagine-puo-contenere-facebook

Alcuni utilizzi

Se si vuole comunicare in maniera efficacia un’immagine, conviene verificare cosa viene descritto per capire se corrisponde a cosa si vuole comunicare, ed eventualmente decidere di cancellare o modificare l’immagine.

Si può creare un riepilogo di quali parole sono impiegate più o meno spesso e quali parole sono associate alla maggiore o minore diffusione.

L’analisi della concorrenza su queste informazioni permette di capire quali immagini sta cercando di spingere un concorrente.