I documenti audiovisivi sono una risorsa vitale per le future generazioni per preservare e ricordare le loro passate culture, credenze e costumi. Un esempio famoso è l'Archivio dell'Istituto LUCE, che ha fornito una sezione trasversale storica e culturale inestimabile della prima metà del XX secolo preservando più di 77.000 film digitalizzati accessibili online. Data l'esplosione cambriana nella produzione di documenti audiovisivi testimoniata dal secolo scorso, la conservazione del patrimonio culturale si trova di fronte a nuove sfide nella gestione di documenti audiovisivi digitalizzati sempre più grandi e nel mantenerli accessibili. L'archivio digitale della RAI, la televisione italiana, contiene più di 1,3 milioni di ore di programmi TV e radio registrati e 800.000 film risalenti al 1954 che devono ancora essere completamente catalogati. Nel complesso, il tasso di produzione degli audiovisivi supera di gran lunga le risorse necessarie per costruire e mantenere archivi accessibili. In questo contesto, i modelli di Intelligenza Artificiale possono aiutare ad aumentare l'accessibilità degli archivi audiovisivi comprendendo automaticamente il loro contenuto, estraendo informazioni e indicizzandoli per renderli facilmente ricercabili. I metodi esistenti possono analizzare il contenuto visivo e recuperare conoscenza basata su query definite dagli utenti, ma sono limitati all'analisi di immagini statiche e al riconoscimento e alla descrizione di contenuti generici appartenenti alla cultura inglese/americana. Questo impedisce la loro applicabilità agli archivi audiovisivi e storici. Il progetto MUCES apporterà un cambiamento radicale investigando e sviluppando modelli innovativi di Deep Learning per rendere ricercabili con linguaggio naturale in modo personalizzato gli archivi audiovisivi del patrimonio culturale italiano. Il progetto svilupperà, addestrerà e rilascerà pubblicamente modelli che sono completamente multimodali e progettati nativamente per lavorare su video e per sfruttare la loro natura multimodale intrinseca considerando congiuntamente movimento, aspetto e audio; personalizzabili e adattabili a concetti di coda lunga con scarsa annotazione, rendendoli adatti a trattare concetti della cultura italiana e specifici del dominio del patrimonio culturale; implementabili in scenari su larga scala e progettati per lavorare efficacemente su enormi archivi contenenti milioni di video. Al centro del progetto giace una nuova sinergia unificante tra la ricerca all'avanguardia in Visione Artificiale, Apprendimento Automatico e Retrieval su larga scala. Il progetto riunisce le esperienze di ricerca e l'expertise di due team di ricerca riconosciuti a livello internazionale: il gruppo di ricerca AImageLab presso UNIMORE e il laboratorio di Intelligenza Artificiale per i Media e le Umanità presso l'ISTI CNR, che abbracciano anni di competenza in Multimedia, Retrieval e Visione Artificiale. Il progetto propone una ricerca fondamentale con diretta sfruttamento pratico e industriale. Prevediamo un significativo beneficio per la società così come nell'aprire la strada a nuove direzioni di ricerca in diverse aree dell'IA.