Actualités IA - Apcl Formation et coaching à Paris 15 ou à distance

Actualités
sur l’IA

Qwen-VL : Alibaba libère la multimodalité

Qwen VL Alibaba Multimodal - Podcast Apcl
Qwen VL Alibaba Multimodal - Podcast Apcl
Actus IA avec Apcl
Qwen-VL : Alibaba libère la multimodalité
Loading
/
Consultez toutes les autres

Le 1ᵉʳ mai 2025, Alibaba a publié Qwen-VL et placé l’ensemble de Qwen 3 en open source. Après avoir grimpé dans les classements LLM grâce à son mode « Think Deeper / Act Faster », la suite Qwen fait désormais dialoguer pixels et tokens. L’objectif est double : offrir une alternative locale aux LVLM occidentaux et catalyser l’écosystème PaddlePaddle / ModelScope autour d’un socle permissif Apache 2.0.

Qwen-VL repose sur un encodeur d’image vision-transformer couplé à un décodeur MoE 235 B-A22 B (flagship) ou 30 B-A3 B (léger). La joint-training list mêle 2 T tokens texte, 40 M paires image-texte et 10 M documents scannés en chinois + anglais — d’où des performances supérieures à LLaVA-1.6 et Gemini Mini sur DocVQA, ChartQA et TextVQA. Le raisonnement hybride recycle le pipeline Qwen 3 : analyse rapide, pause introspective si la réponse dépasse un seuil de perplexité.

En maintenant l’Apache 2.0, Alibaba garantit :

  • Hébergement libre : self-host sur GPU locaux ou GRPC-serverless ModelScope.
  • Fork facile : intégration LoRA/QLoRA, quantisation 4 bits incluse dans le repo.
  • Communauté contributive : pull-requests déjà actives pour l’ajout des alphabets thaï et persan.
    Le modèle léger (30 B-A3 B) tourne sur un unique A100 80 Go ; le flagship exige quatre H800 ou huit A800 — un bilan plus souple que les 300 B de LLaVA-Next.

La GenAI Service Platform accepte désormais l’upload direct d’images ou de PDF. Une route /v1/vision/completions renvoie texte + bounding boxes. Alibaba cible le marché retail : un plug-in Taobao Visual Search (beta) laisse l’utilisateur shopper une veste photographiée dans la rue. À court terme, la plateforme espère monétiser la recherche d’articles par photo et les chatbots SAV capables de lire un manuel scanné. Feuille de route : cap sur Qwen-Omni

JalonsDate cibleContenu clé
Qwen-VL GAMai 2025Poids & code en ligne
Qwen-VL-FlashJuilletDistillation 13 B, fenêtre 64 k
Qwen-OmniS3 2025Texte-image-audio-vidéo, fenêtre >128 k

Qwen-Omni vise à unifier quatre modalités dans un seul modèle, répondant à la montée en puissance d’agents polyvalents façon OpenAI Sora ou Gemini 1.5 Pro.

  1. Cloner Qwen/Qwen-VL sur Hugging Face.
  2. Lancer demo_gradio.py ; charger une photo ou un PDF.
  3. Ajuster le mode : fast pour réponse immédiate, deep pour analyse longue.
  4. Quantiser en 8 bits via bitsandbytes pour réduire la RAM de moitié.
  5. Déployer sur GenAI Service Platform pour accéder à l’auto-scaling et à la facturation au millier de tokens (0,0006 $).

Avec Qwen-VL, Alibaba propulse sa famille Qwen 3 au rang de plateforme multimodale libre, prête pour la recherche documentaire, la vente en ligne visuelle et l’assistance technique sur documents. Entre licence ouverte, API prête à l’emploi et roadmap vers Qwen-Omni, le géant chinois offre aux développeurs et aux e-commerçants une rampe d’accès immédiate à la LVLM, sans barrière propriétaire. Reste à voir comment LLaVA, Gemini Mini et DeepSeek réagiront à ce nouveau concurrent taillé pour les images… et pour le marché.