Meta mostra il modello AI ImageBind open source in grado di combinare sei tipi di dati – Professionista IT – Notizie

Meta mostra ImageBind, un modello AI open source che deve essere in grado di connettere sei diversi tipi di dati per generare contenuti “multisensoriali”. Il modello AI è ancora in fase di ricerca.

Il modello ImageBind deve essere in grado di gestire dati relativi a testo, audio, immaginiinformazioni su movimento, temperatura e profondità, scrivono i ricercatori di Meta in un documento di ricerca. Questo dovrebbe essere fatto allo stesso modo dei modelli di testo in immagine come Dall-E, che collegano il testo alle foto. ImageBind deve quindi essere in grado di collegare non due, ma sei tipi di dati. Secondo il gigante della tecnologia, non è necessario allenarsi in modo specifico su ogni combinazione di dati.

Meta fornisce come esempio che un’immagine di pinguini può essere generata sulla base di un frammento audio di pinguini. Se gli utenti forniscono sia un morso sonoro di un motore che un’immagine di un uccello, viene creata un’immagine AI che mostra sia un motore che uccelli. In una dimostrazione Meta mostra anche la possibilità per generare audio da testo o immagini. La società afferma che il modello potrebbe essere utilizzato per generare un video con l’audio corrispondente.


Esempi di applicazioni del modello ImageBind

Il movimento deve essere misurato dalla rete neurale utilizzando a unità di misura inerziale, che è presente anche nelle fotocamere di smartphone e visori VR, tra gli altri. Meta afferma che è possibile aggiungere più tipi di dati nelle iterazioni, tra cui “tocco, parola, olfatto e rfmsegnali cerebrali.

Meta spera che altri ricercatori utilizzino questo modello il cui codice è stato creato l’open source, come base per lo sviluppo di nuovi “sistemi completi”. L’azienda cita come esempio la possibilità di costruire “mondi virtuali immersivi”, attraverso i quali l’IA può teoricamente generare non solo audio e immagini, ma anche movimento e profondità, tra le altre cose.

READ  Lo sviluppatore ProtonAOSP esegue Windows 11 e Linux su Google Pixel 6 - Tablet e telefoni - Geeks

All’inizio di quest’anno, Meta ha già mostrato una raccolta di modelli linguistici AI relativamente piccoli chiamati LLaMa, che dovrebbero aiutare i ricercatori a studiare i modelli linguistici. Un anno fa, l’azienda aveva già proposto un diverso modello di machine learning per la ricerca scientifica.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *