Actualités IA - Apcl Formation et coaching à Paris 15 ou à distance

Actualités
sur l’IA

Qwen 3 / Tongyi Qianwen, IA d’Alibaba

Qwen 3, AI d'Alibaba - Stratégie et Models - Apcl podcast
Qwen 3, AI d'Alibaba - Stratégie et Models - Apcl podcast
Actus IA avec Apcl
Qwen 3 / Tongyi Qianwen, IA d’Alibaba
Loading
/
Consultez toutes les autres

Alibaba, autre mastodonte technologique chinois, a concentré ses efforts IA via sa division Alibaba Cloud (Aliyun).

En avril 2023, Alibaba dévoilait son LLM propriétaire Tongyi Qianwen  les mille questions unifiées»).

Rapidement intégré en version bêta dans le chatbot Tongyi Qianwen et dans des applications comme le secrétariat vocal de DingTalk.

Ce modèle de première génération (dérivé de l’architecture Meta LLaMA selon les rapports en.wikipedia.org) n’était pas initialement accessible publiquement.

Cependant, Alibaba a opéré un virage notable vers l’open source par la suite.

En effet, dès août 2023, il a ouvert les poids de Qwen-7B et Qwen-14B (versions allégées de Tongyi) sous licence permissive. Source : en.wikipedia.org.

Puis en 2024, Alibaba a lancé une série Qwen 2, accompagnée là aussi de mises à disposition open source de certains modèles (jusqu’à 70B) tout en gardant privés les plus avancés.

Enfin, en avril 2025, Alibaba a annoncé Qwen 3.

C’est la troisième génération de sa famille Tongyi Qianwen.

Cette version est publiée intégralement en open source (licence Apache 2.0) sur HuggingFace et ModelScope. Source : en.wikipedia.org.

Il s’agit du modèle chinois le plus récent d’Alibaba, représentant le summum de ce que l’entreprise offre en IA générative.

La famille Qwen 3 est décrite comme une gamme de modèles hybrides alliant :

  • Des modèles denses de taille modérée
  • Et des modèles à mixture d’experts (sparse) de grande envergure

Source : en.wikipedia.org.

Concrètement, Alibaba fournit dans Qwen 3, des modèles purement denses allant de 600 millions à 32 milliards de paramètres :

  • Des modèles MoE tel que Qwen-3 30B MoE (30 milliards de paramètres avec 3 Mds actifs),
  • Qwen-3 235B MoE (235 milliards au total dont 22 Mds actifs).

Source : en.wikipedia.org.

Ces derniers incarnent l’effort de scale maximal, bien que l’utilisation pratique du 235B reste réservée à ceux disposant d’une infrastructure GPU conséquente.

Tous les modèles (sauf les plus petits <4B) bénéficient d’une fenêtre de contexte de 128 000 tokens. Source : en.wikipedia.org.

Cela assure la prise en compte de longs prompts ou documents.

Le corpus d’entraînement de Qwen 3 comprend 36 000 milliards de tokens en 119 langues et dialectes, faisant de lui l’un des plus grands jamais utilisés. Source : en.wikipedia.org

Pour comparaison, GPT-4 aurait été entraîné sur environ 2T tokens et LLaMA 2 sur 2T.

Cette abondance de données, combinée aux multiples optimisations (sparse experts, etc.), vise à doter Qwen 3 d’une solide base de connaissances et d’une robustesse en génération.

Par ailleurs, Qwen 3 intègre des mécanismes de raisonnement explicite similaires à ceux de Google Gemini :

Le modèle peut activer ou non un mode « reasoning » via un token spécial, lui faisant dérouler une chaîne de raisonnement intermédiaire avant de répondre. Source : en.wikipedia.org.

Cela s’inspire des techniques de chain-of-thought, améliorant la capacité à résoudre des problèmes complexes pas à pas.

Bien que Qwen 3 de base soit un LLM textuel général, Alibaba a développé tout un écosystème de variantes.

Déjà Qwen 2.5 proposait Qwen-2.5 VL (vision-language, capable de décrire des images, en versions 2B, 7B, 32B, 72B) et même Qwen-2.5 Omni (multimodal complet : entrée texte, image, audio, vidéo et sortie texte + audio). Source : en.wikipedia.org.

En janvier 2025, un modèle Qwen2.5-Omni a été démontré, acceptant les quatre types d’entrée et pouvant mener un chat vocal en temps réel. Source : en.wikipedia.org.

Il est probable qu’Alibaba continue sur cette lancée avec Qwen 3 :

On peut s’attendre à des variantes Qwen-3-VL pour la vision, etc., même si l’annonce initiale d’avril 2025 concerne surtout le backbone textuel.

Quoi qu’il en soit, Alibaba se distingue en adressant des cas d’usage industriels spécifiques :

En effet, lors de la conférence Apsara 2023, la version Tongyi Qianwen 2.0 avait été accompagnée de modèles sectoriels (juridique, santé, finance, service client…) entraînés sur des données spécialisées.

Source : alibabacloud.com.

Cette stratégie se poursuit probablement avec Qwen 3, afin de proposer aux entreprises des IA “prêtes à l’emploi” pour leur domaine, tout en s’appuyant sur le socle puissant du modèle général.

Les modèles Qwen d’Alibaba se sont illustrés sur plusieurs benchmarks.

En juillet 2024, le modèle Qwen-2 72B-Instruct était classé #3 mondial derrière GPT-4 et Claude 3.5 dans le benchmark SuperCLUE, et 1er parmi les modèles chinois, surpassant ceux de Baidu, Huawei, etc. Source : scmp.com.

Ce même modèle avait également dominé le classement des modèles open source sur HuggingFace fin juin 2024. Source : scmp.com.

Ces résultats témoignent de la haute qualité atteinte par Alibaba dès la génération 2.

Qwen 3, qui lui succède, a pour ambition de faire encore mieux.

Alibaba n’a pas communiqué de métriques spécifiques lors du lancement open source, mais on sait par référence qu’il s’agit d’un des rares modèles open source à combiner taille et diversité de langues.

Son entraînement multilingue géant (50% de données non anglaises) en fait un champion potentiel pour des langues habituellement moins bien servies. Source : audioblog.iis.fraunhofer.com.

De plus, le fait d’ouvrir le code permet à la communauté de l’évaluer :

On verra donc Qwen 3 figurer sur les tableaux de bord comme HELM ou l’Open LLM Leaderboard.

On peut raisonnablement estimer que la version :

  • Qwen-3 14B rivalise avec LLaMA 2 13B,
  • Qwen-3 32B dense approche LLaMA 2 70B,
  • Qwen-3 235B MoE se hisse au niveau de LLaMA 4 Maverick ou Gemini 2.0.

Les premiers tests indépendants ont d’ailleurs confirmé que Qwen 3 était l’un des modèles open source les plus performants, surpassant la plupart des modèles occidentaux de taille comparable en compréhension et génération de code. Source : datacamp.com.

Alibaba adopte une démarche résolument ouverte et communautaire.

En publiant sous licence Apache 2.0 toutes les variantes de Qwen 3 (y compris les versions MoE géantes), Alibaba fait figure d’exception parmi les géants.

Même Meta impose des licences plus restrictives.

L’objectif est de stimuler l’adoption de ses modèles par les développeurs du monde entier, afin que ceux-ci construisent des applications, contribuent aux améliorations et, indirectement, favorisent l’écosystème Alibaba Cloud.

En effet, Alibaba propose dans le même temps son modèle via sa plateforme cloud :

Qwen 3 est disponible sur le chatbot officiel (chat.qwen.ai) et surtout via les services API d’Alibaba Cloud (GenAI Service Platform). Source : alibabacloud.com.

Les clients cloud peuvent donc :

  • Soit télécharger les poids et déployer eux-mêmes Qwen 3 (sur leurs machines, ou sur AWS où Alibaba a aussi mis Qwen 3 à disposition),
  • Soit l’utiliser directement sur Alibaba Cloud où l’infrastructure est optimisée pour ces modèles (notamment avec des instances H100 ou des puces chinoises Hanguang).

Cette double approche open source + service managé permet à Alibaba de monétiser auprès des grands comptes tout en gagnant en notoriété grâce aux cas d’usage open source.

Sur le plan marché visé, Alibaba cible surtout les entreprises chinoises et asiatiques qui désirent des solutions IA sur mesure.

Sa communication insiste sur le fait que 80% des entreprises tech en Chine utilisent Alibaba Cloud et qu’Alibaba veut être « le cloud le plus ouvert à l’ère de l’IA ». Source : alibabacloud.com.

En fournissant outils et modèles, Alibaba entend faciliter la création d’applications IA pour les PME et ETI, et ainsi accroître la pénétration de son cloud.

Par ailleurs, Alibaba n’ignore pas le grand public :

Son modèle Tongyi Qianwen alimente des fonctionnalités dans les apps Alibaba.

Par ex., l’assistant shopping sur Taobao/Tmall, la rédaction automatisée de descriptions produits, etc.

L’ouverture des modèles peut aussi servir d’argument réglementaire :

En jouant la carte de la transparence (code ouvert, dataset partiellement documenté), Alibaba marque des points auprès des autorités chinoises qui encouragent le partage des avancées clés pour la collectivité.

Enfin, Alibaba se positionne en concurrent d’OpenAI sur la scène mondiale open source.

Là où OpenAI garde ses poids fermés, Alibaba propose une alternative libre.

Ainsi, Alibaba espère que la communauté internationale utilise Qwen et contribue à son amélioration, ce qui bénéficierait au final à Alibaba (en termes de prestige et peut-être de retours techniques).

On note d’ailleurs que certains modules de Qwen 3 permettent de l’invoquer en modèle reasoning hybride.

En effet, montrant que Alibaba cherche à se rapprocher de fonctionnalités de modèles occidentaux de pointe tout en conservant l’avantage linguistique (Qwen 3 est très en avance sur le chinois, où ChatGPT est moins performant).

En résumé, Alibaba adopte une stratégie très écosystémique :

  • Ouverture maximale pour attirer développeurs et partenaires,
  • Offres cloud verticales pour rentabiliser,
  • Mise en avant de capacités différenciatrices (multilingue, intégration facile via open source, modularité dense/sparse)

Pour se démarquer de Baidu ou Tencent.