Qwen-VL d'Alibaba - Actualités IA et podcast par Apcl

Qwen VL Alibaba Multimodal - Podcast Apcl

Actus IA avec Apcl

Qwen-VL : Alibaba libère la multimodalité

00:00 / 4:55

Consultez toutes les autres Actus IA avec Apcl

Du texte pur au multimodal libre

Le 1ᵉʳ mai 2025, Alibaba a publié Qwen-VL et placé l’ensemble de Qwen 3 en open source. Après avoir grimpé dans les classements LLM grâce à son mode « Think Deeper / Act Faster », la suite Qwen fait désormais dialoguer pixels et tokens. L’objectif est double : offrir une alternative locale aux LVLM occidentaux et catalyser l’écosystème PaddlePaddle / ModelScope autour d’un socle permissif Apache 2.0.

Sous le capot : LVLM multilingue

Qwen-VL repose sur un encodeur d’image vision-transformer couplé à un décodeur MoE 235 B-A22 B (flagship) ou 30 B-A3 B (léger). La joint-training list mêle 2 T tokens texte, 40 M paires image-texte et 10 M documents scannés en chinois + anglais — d’où des performances supérieures à LLaVA-1.6 et Gemini Mini sur DocVQA, ChartQA et TextVQA. Le raisonnement hybride recycle le pipeline Qwen 3 : analyse rapide, pause introspective si la réponse dépasse un seuil de perplexité.

Poids ouverts, deux tailles, même licence

En maintenant l’Apache 2.0, Alibaba garantit :

Hébergement libre : self-host sur GPU locaux ou GRPC-serverless ModelScope.
Fork facile : intégration LoRA/QLoRA, quantisation 4 bits incluse dans le repo.
Communauté contributive : pull-requests déjà actives pour l’ajout des alphabets thaï et persan.
Le modèle léger (30 B-A3 B) tourne sur un unique A100 80 Go ; le flagship exige quatre H800 ou huit A800 — un bilan plus souple que les 300 B de LLaVA-Next.

API GenAI : images, PDF et plugins Taobao

La GenAI Service Platform accepte désormais l’upload direct d’images ou de PDF. Une route /v1/vision/completions renvoie texte + bounding boxes. Alibaba cible le marché retail : un plug-in Taobao Visual Search (beta) laisse l’utilisateur shopper une veste photographiée dans la rue. À court terme, la plateforme espère monétiser la recherche d’articles par photo et les chatbots SAV capables de lire un manuel scanné. Feuille de route : cap sur Qwen-Omni

Jalons	Date cible	Contenu clé
Qwen-VL GA	Mai 2025	Poids & code en ligne
Qwen-VL-Flash	Juillet	Distillation 13 B, fenêtre 64 k
Qwen-Omni	S3 2025	Texte-image-audio-vidéo, fenêtre >128 k

Qwen-Omni vise à unifier quatre modalités dans un seul modèle, répondant à la montée en puissance d’agents polyvalents façon OpenAI Sora ou Gemini 1.5 Pro.

Comment tester en moins d’une heure ?

Cloner Qwen/Qwen-VL sur Hugging Face.
Lancer demo_gradio.py ; charger une photo ou un PDF.
Ajuster le mode : fast pour réponse immédiate, deep pour analyse longue.
Quantiser en 8 bits via bitsandbytes pour réduire la RAM de moitié.
Déployer sur GenAI Service Platform pour accéder à l’auto-scaling et à la facturation au millier de tokens (0,0006 $).

Conclusion

Avec Qwen-VL, Alibaba propulse sa famille Qwen 3 au rang de plateforme multimodale libre, prête pour la recherche documentaire, la vente en ligne visuelle et l’assistance technique sur documents. Entre licence ouverte, API prête à l’emploi et roadmap vers Qwen-Omni, le géant chinois offre aux développeurs et aux e-commerçants une rampe d’accès immédiate à la LVLM, sans barrière propriétaire. Reste à voir comment LLaVA, Gemini Mini et DeepSeek réagiront à ce nouveau concurrent taillé pour les images… et pour le marché.