Un autre jour, une autre histoire sur la nature éthique des modèles musicaux d’IA générative (genAI). L'année dernière, Meta a publié deux modèles genAI de conversion texte-musique, MusicGen et AudioCraft – tous deux formés sur de la musique sous licence – apparemment à partir de bibliothèques musicales et d'autres sources similaires.
Meta a maintenant publié cinq nouveaux modèles d'IA au public, tous traitant de choses familières telles que la conversion d'image en texte et la génération d'images. Mais il existe également un nouveau modèle de génération audio, Jasco, qui, selon Meta, « est comparable aux références évaluées en termes de qualité de génération ».
Le nouveau modèle permet des saisies multiples : à la fois une description textuelle et des extraits de musique peuvent être saisis, ce qui, selon Meta, signifie « des contrôles nettement meilleurs et plus polyvalents sur la musique générée ».
Alors : est-ce que ce que cela rapporte est bon ? Eh bien, il y a quelques clips audio sur la page Web hébergeant le document de recherche, et ils incluent une invite audio du Balero de Ravel que l'IA transforme en une « chanson pop entraînante des années 80 » et également en une chanson folk à l'accordéon, avec des résultats assez convaincants. Il y a aussi un clip audio de quelqu'un en train de faire du beatbox que l'IA transforme en une chanson de reggae, une chanson de rock, etc.
Tout cela semble aussi impressionnant qu’on pourrait s’y attendre – mais que veut Meta avec une plate-forme de création musicale genAI ? Il est facile d'imaginer comment un bouton de génération de musique pourrait s'intégrer dans la suite d'outils d'édition Instagram pour ajouter de la musique personnalisée à une vidéo, et puis bien sûr, il y a le métaverse lui-même, qui aura besoin de musique (éventuellement réactive) pour s'adapter au numérique. expériences.
Il est intéressant de noter que l’un des cinq nouveaux modèles est conçu pour détecter les discours générés par l’IA – peut-être pour repérer les faux messages de propagande, mais peut-être qu’une technologie similaire pourrait être utilisée pour détecter l’utilisation non autorisée des voix de l’IA.
Pendant ce temps, une autre plateforme musicale genAI a été lancée: Jen, qui est une « plateforme musicale d'IA générative formée de manière éthique » avec plus de 40 catalogues sous licence dans son ensemble de formation initiale. Il est cofondé par Shara Senderoff (anciennement de Raised in Space, qu'elle a cofondée avec Scooter Braun). En proposant l'ensemble désormais familier d'entrées texte-musique, Jen espère également que sa « doctrine de formation stricte » la distinguera, avec un « engagement en faveur de la transparence, de la compensation et de l'identification des droits d'auteur ».
Alors, comment fonctionne cette partie ? Préparez-vous à une explosion du passé récent : la blockchain. Chaque piste de l'ensemble de formation – ainsi que les pistes créées par la plate-forme – sont automatiquement vérifiées pour la reconnaissance audio et l'identification des droits d'auteur. Ensuite, un hachage cryptographique est généré pour chaque piste, qui est enregistrée dans une blockchain. Cette dernière partie vise à graver dans le marbre les données autour du moment de la création, et relie également chaque morceau à son créateur. Les pistes créées peuvent ensuite être vendues sur une couche de marché de la plateforme.