
Qu’apporte Stable Video 4D 2.0 ?
Publiée le 20 mai 2025, la nouvelle version améliore la 3D-attention :
Au lieu de traiter chaque image indépendamment, le réseau apprend des liens spatio-temporels profonds, alignant textures et géométries image après image.
Résultat :
Un mesh 4D (forme + mouvement) plus net, sans « shimmer » ni artefacts de ré-texturage, même sur des vidéos courtes filmées au smartphone.
Un pipeline simplifié : une seule vidéo, un actif 4D
L’époque où il fallait capturer un sujet sous dix angles est révolue. L’algorithme ingère une vidéo objet-centrée de quelques secondes et reconstruit :
- Nuage de points densifié à partir des vues successives.
- Surface cohérente via un réseau SDF animé.
- Textures temporelles régularisées pour chaque frame.
Au final, on obtient un modèle animé, prêt à être exporté vers Unreal, Blender ou WebGL, idéal pour la réalité mixte, le jeu vidéo ou la pub immersive.
Meilleur sur tous les benchmarks
Sur LPIPS (finesse visuelle) comme sur les métriques vidéo FVD-V/FVD-F et la nouvelle FV4D, SV4D 2.0 occupe la première place devant DreamGaussian4D.
Les tests internes montrent jusqu’à -25 % de distance perceptuelle et un ** -18 %** de fuite de mouvement entre frames.
Concrètement, les surfaces respirent moins, les ombres collent mieux à la géométrie et le motion blur reste naturel.
Licence Community : rien à cacher, tout à gagner
Stability AI publie le code et les poids sur GitHub et Hugging Face sous sa licence Community — usage commercial libre tant que le modèle de base est crédité. Cette ouverture accélère :
- Recherche académique : équipes VFX peuvent forker et tester de nouvelles pertes.
- Start-ups : monétiser rapidement des catalogues de personnages 4D.
- Indés : créer des filtres TikTok volumétriques sans craindre les droits.
Intégration à la feuille de route vidéo/3D
Stable Video 4D 2.0 complète la panoplie :
Outil | Fonction | Disponibilité |
---|---|---|
Virtual Camera | Promenade libre dans une scène 4D | Alpha |
SPAR3D | Reconstruction objets indoor | Beta |
Stable Video 4D 2.0 | Génération 4D en un clic | GA |
Cette cohérence donne aux studios une chaîne de production entièrement open-source, de la capture à l’édition.
Expansion multimodale : l’audio et le mobile en ligne de mire
En parallèle, Stability annonce un partenariat Arm pour optimiser Stable Audio Open Small sur GPU mobiles :
Mixage procédural de musique et paysages sonores qui pourront se synchroniser avec les vidéos 4D.
L’ambition est claire : fournir un kit complet, décentralisé et léger pour créer des expériences XR sur casque autonome ou smartphone.
Comment tester dès aujourd’hui ?
- Cloner le dépôt stable-video-4d-2.0 sur GitHub.
- Lancer le notebook quick_start.ipynb : indiquez simplement le chemin de votre clip.
- Exporter le mesh + textures au format glTF ou USDZ.
- Importer dans votre moteur 3D et ajuster l’éclairage ; la cohérence temporelle évite la retouche frame par frame.
Conclusion
Stable Video 4D 2.0 pousse la génération 3D/4D dans le domaine du « one-shot » :
Capturer, reconstruire, animer – tout depuis une unique vidéo.
Entre benchmarks dominés, licence ouverte et ambitions mobiles, Stability AI confirme son passage du texte vers un écosystème multimodal complet.
Pour les créateurs XR, les équipes VFX ou les game designers, la porte d’entrée vers la volumétrie accessible vient de s’ouvrir en grand.