
Du texte pur au multimodal libre
Le 1ᵉʳ mai 2025, Alibaba a publié Qwen-VL et placé l’ensemble de Qwen 3 en open source. Après avoir grimpé dans les classements LLM grâce à son mode « Think Deeper / Act Faster », la suite Qwen fait désormais dialoguer pixels et tokens. L’objectif est double : offrir une alternative locale aux LVLM occidentaux et catalyser l’écosystème PaddlePaddle / ModelScope autour d’un socle permissif Apache 2.0.
Sous le capot : LVLM multilingue
Qwen-VL repose sur un encodeur d’image vision-transformer couplé à un décodeur MoE 235 B-A22 B (flagship) ou 30 B-A3 B (léger). La joint-training list mêle 2 T tokens texte, 40 M paires image-texte et 10 M documents scannés en chinois + anglais — d’où des performances supérieures à LLaVA-1.6 et Gemini Mini sur DocVQA, ChartQA et TextVQA. Le raisonnement hybride recycle le pipeline Qwen 3 : analyse rapide, pause introspective si la réponse dépasse un seuil de perplexité.
Poids ouverts, deux tailles, même licence
En maintenant l’Apache 2.0, Alibaba garantit :
- Hébergement libre : self-host sur GPU locaux ou GRPC-serverless ModelScope.
- Fork facile : intégration LoRA/QLoRA, quantisation 4 bits incluse dans le repo.
- Communauté contributive : pull-requests déjà actives pour l’ajout des alphabets thaï et persan.
Le modèle léger (30 B-A3 B) tourne sur un unique A100 80 Go ; le flagship exige quatre H800 ou huit A800 — un bilan plus souple que les 300 B de LLaVA-Next.
API GenAI : images, PDF et plugins Taobao
La GenAI Service Platform accepte désormais l’upload direct d’images ou de PDF. Une route /v1/vision/completions renvoie texte + bounding boxes. Alibaba cible le marché retail : un plug-in Taobao Visual Search (beta) laisse l’utilisateur shopper une veste photographiée dans la rue. À court terme, la plateforme espère monétiser la recherche d’articles par photo et les chatbots SAV capables de lire un manuel scanné. Feuille de route : cap sur Qwen-Omni
Jalons | Date cible | Contenu clé |
---|---|---|
Qwen-VL GA | Mai 2025 | Poids & code en ligne |
Qwen-VL-Flash | Juillet | Distillation 13 B, fenêtre 64 k |
Qwen-Omni | S3 2025 | Texte-image-audio-vidéo, fenêtre >128 k |
Qwen-Omni vise à unifier quatre modalités dans un seul modèle, répondant à la montée en puissance d’agents polyvalents façon OpenAI Sora ou Gemini 1.5 Pro.
Comment tester en moins d’une heure ?
- Cloner Qwen/Qwen-VL sur Hugging Face.
- Lancer demo_gradio.py ; charger une photo ou un PDF.
- Ajuster le mode : fast pour réponse immédiate, deep pour analyse longue.
- Quantiser en 8 bits via bitsandbytes pour réduire la RAM de moitié.
- Déployer sur GenAI Service Platform pour accéder à l’auto-scaling et à la facturation au millier de tokens (0,0006 $).
Conclusion
Avec Qwen-VL, Alibaba propulse sa famille Qwen 3 au rang de plateforme multimodale libre, prête pour la recherche documentaire, la vente en ligne visuelle et l’assistance technique sur documents. Entre licence ouverte, API prête à l’emploi et roadmap vers Qwen-Omni, le géant chinois offre aux développeurs et aux e-commerçants une rampe d’accès immédiate à la LVLM, sans barrière propriétaire. Reste à voir comment LLaVA, Gemini Mini et DeepSeek réagiront à ce nouveau concurrent taillé pour les images… et pour le marché.