INTELLIGENCE ARTIFICIELLE
Des influenceurs virtuels pour le métavers japonais

Une startup japonaise du métavers, axée sur les influenceurs virtuels, souhaitait développer des modèles d’IA avancés pour générer des vidéos parlantes en temps réel. Elle a fait appel à VMO Holdings, une marque du Groupe ALTEN spécialisée dans le développement de produits logiciels, afin de l’aider à créer les avatars. Grâce à leurs innovations, des avatars IA parlants en temps réel et de haute qualité peuplent désormais leur métavers.
La startup japonaise innovante cherchait à produire des vidéos haut de gamme adaptées au public japonais du métavers. La rareté des ensembles de données de formation en japonais dans les interfaces de programmation d’applications (API) commerciales existantes constituait un obstacle majeur à l’obtention des fonctionnalités de reconnaissance vocale précises recherchées par la startup. En outre, le coût élevé des produits commerciaux tiers exigeait de développer un produit d’IA en interne.

Le défi : Développer des technologies d’IA de pointe pour générer des vidéos parlantes en temps réel, adaptées aux besoins d’un public métavers japonais axé sur les influenceurs virtuels
La solution : Recherche innovante sur les modèles d’IA en vue de créer des avatars IA parlants en temps réel et de haute qualité pour des applications virtuelles, alliée à un réglage personnalisé des modèles de reconnaissance vocale pour de meilleures performances en japonais
Les avantages :
- Personnages IA parlants en temps réel et de haute qualité
- Une solution de pointe
- Capacités d’IA renforcées
- Des performances supérieures en matière de reconnaissance vocale en japonais
- Amélioration de l’efficacité de la génération de vidéos
- Des temps de traitement plus rapides et des résultats dotés d’une plus haute résolution
Indicateurs de performance :
Reconnaissance vocale :
- Réduction de 75 % du temps de traitement
- Amélioration de 15 % de la précision de la reconnaissance vocale en japonais par rapport aux normes du marché
Génération de vidéos :
- Amélioration de 100 % de l’alignement entre la voix et les mouvements des lèvres
- Augmentation de la résolution, avec une utilisation équivalente du GPU, de 96×96 à 256×256
- Réduction du temps de latence entre l’entrée et la sortie, en temps réel, de 45 à moins de 3 secondes
- Réduction de 90 % du coût de la création de vidéos par rapport aux outils traditionnels

Vidéo parlante avec des personnages
Avec VMO, la startup s’est donnée pour mission de révolutionner la communication virtuelle sur la plateforme du métavers.
La solution comprend deux éléments principaux. Le premier concernait la recherche et le développement de modèles d’IA pour générer des avatars parlants de haute qualité et en temps réel. Les modèles devaient permettre de créer des vidéos dynamiques avec une synchronisation labiale et des expressions faciales réalistes, optimisées pour une faible utilisation des unités de traitement graphique (GPU). Ces travaux ont été complétés par un réglage fin du modèle de conversion de reconnaissance vocale, en l’améliorant pour les données japonaises afin de compenser l’absence d’alternatives commerciales existantes. Ce réglage fin a permis d’améliorer considérablement la précision de la reconnaissance de la parole japonaise. L’optimisation de l’efficacité de la génération vidéo a permis d’accélérer les temps de traitement et d’obtenir des résultats affichant une résolution supérieure.
Le premier modèle d’IA de synchronisation labiale est entré en production en septembre 2023, avec une fausse vidéo de synchronisation labiale. La version actuelle, dotée en revanche d’une véritable synchronisation des lèvres, est entrée en production en janvier 2024.
Les outils
La formation de modèle sur le GPU H100 de Nvidia a été utilisée pour les tâches intensives dans ce domaine.
L’analyse comparative de la reconnaissance vocale a été réalisée à l’aide de l’API de Whisper et divers modèles pré-entraînés, à des fins de comparaison avec les références de l’industrie (OpenAI et ASR Google). Les modèles d’IA avancés comprennent SadTalker pour la génération de vidéos de haute qualité à forte intensité de GPU. La solution ER-NERF a été déployée pour l’identification des corps statiques, en transformant des photos en vidéos d’IA personnalisées en streaming, optimisées pour une faible utilisation du GPU. Wav2Lip permet de réaliser des mouvements efficaces et complets du corps de bonne qualité. Des ensembles de données japonais personnalisés ont été utilisés pour le réglage fin, en tirant parti des techniques internes de prétraitement et d’optimisation. Ces solutions d’avant-garde ont permis de créer des vidéos en temps quasi réel, réduisant la durée de traitement de 45 à 5 secondes seulement, à une résolution de 96×96.
L’IA de VMO a permis d’améliorer la qualité des vidéos, avec une résolution de 256×256 pixels et un temps de génération de trois secondes seulement. Les résultats de la reconnaissance vocale en japonais ont démontré des performances supérieures, avec un taux d’erreur de mots (WER) de 18,01 qui dépasse de loin le Whisper d’OpenAI (WER de 21,11) et l’ASR de Google (WER de 27,74), offrant ainsi un avantage significatif dans la prise en charge de la langue japonaise.
Nouveaux horizons sur le métavers
Cette application innovante des technologies de l’IA offre au public japonais des avancées inédites en matière de génération d’avatars, ouvrant ainsi de nouveaux territoires dans le métavers axés sur leurs besoins et leurs préférences.