Nvidia dévoile l'IA audio Fugatto : « un couteau suisse pour le son »

Le secteur de l’IA-musique est divisé en deux groupes d’entreprises : les startups et les grandes entreprises technologiques. Google/YouTube et Meta étant deux de ces derniers à avoir construit leurs propres modèles d'IA musicale. Désormais, Nvidia, connu principalement pour son matériel informatique, les a rejoints. Cette semaine, il a dévoilé Foundational Generative Audio Transformer Opus 1 – Fugatto en abrégé.

« Un couteau suisse pour le son, qui permet aux utilisateurs de contrôler la sortie audio simplement à l'aide de texte », c'est ainsi que la société a décrit le modèle dans son annonce. « Il génère ou transforme n'importe quel mélange de musique, de voix et de sons décrits avec des invites en utilisant n'importe quelle combinaison de fichiers texte et audio. Par exemple, il peut créer un extrait de musique basé sur une invite de texte, supprimer ou ajouter des instruments à une chanson existante, modifier l’accent ou l’émotion d’une voix – et même permettre aux gens de produire des sons jamais entendus auparavant.

Sur quoi a-t-il été formé ? Le billet de blog de Nvidia mentionnait « un ensemble de données mélangées contenant des millions d'échantillons audio ». L'article universitaire qui l'accompagne contient cependant une liste d'« ensembles de données non vocaux open source » : ceux-ci incluent MusicCaps, MTG-Jamendo, MUSDB18-HQ et d'autres.