Actualités IA - Apcl Formation et coaching à Paris 15 ou à distance

Actualités
sur l’IA

R2 de DeepSeek

R2 de DeepSeek Actualites - Apcl podcast
R2 de DeepSeek Actualites - Apcl podcast
Actus IA avec Apcl
R2 de DeepSeek
Loading
/
Consultez toutes les autres

Avant R2, en dehors des géants technologiques traditionnels, DeepSeek – une jeune pousse basée à Hangzhou – a fait irruption sur la scène de l’IA fin 2024.

Son modèle DeepSeek-R1, lancé gratuitement en janvier 2025, a rapidement gagné en popularité en Chine au point de dépasser ChatGPT en nombre de téléchargements sur l’App Store d’Apple quelques jours après sa sortie. Source reuters.com.

Surnommé le « Sputnik moment » de l’IA chinoise, R1 a démontré qu’une startup chinoise pouvait rivaliser avec les modèles occidentaux.

Et ce, tout en étant 20 à 50 fois moins coûteux à l’usage que GPT-4 selon DeepSeek. Source reuters.com.

Cette efficacité spectaculaire a contribué à un vent de panique sur les marchés technologiques mondiaux.

Cet événement efface plus de 1 000 milliards de dollars de capitalisation chez les géants du secteur, notamment les fournisseurs de puces comme Nvidia.

Des personnalités de la tech ont salué la prouesse de DeepSeek-R1.

D’ailleurs, Marc Andreessen parle d’un « cadeau profond au monde » en raison de son caractère open source.

Tandis que les autorités chinoises ont encensé le fondateur Liang Wenfeng comme symbole de la réussite technologique nationale. Source  reuters.com.

Forte de ce succès, DeepSeek s’apprête à franchir une nouvelle étape avec DeepSeek-R2, annoncé pour le premier semestre 2025.

D’après des sources industrielles, le lancement de R2 a été accéléré pour capitaliser sur la dynamique de R1, une sortie dès mai 2025 ayant même été évoquée. Source toolkitly.comtoolkitly.com.

Stratégiquement, DeepSeek se positionne comme un challenger direct des leaders occidentaux (OpenAI, Google, Anthropic…), misant sur une offre disruptivement économique et ouverte.

L’émergence de DeepSeek est ainsi perçue en Chine comme la preuve que les efforts américains pour freiner les avancées technologiques chinoises sont voués à l’échec. Source reuters.com.

En somme, le contexte de l’annonce de R2 est celui d’une startup qui, en l’espace de quelques mois, est passée du statut d’inconnue à celui d’acteur stratégique de l’IA, prête à bousculer l’ordre établi en 2025.

Le modèle DeepSeek-R2 s’inscrit dans la lignée technique innovante de son prédécesseur.

Il s’agit d’un grand modèle de langage de type transformeur, reposant sur une architecture Mixture-of-Experts (MoE) dite hybride. Source ndtv.com.

Concrètement, le réseau est subdivisé en multiples sous-modèles (« experts »).

Chacun est une fraction seulement activée pour chaque requête.

C’est ce qui permet d’augmenter drastiquement le nombre total de paramètres sans exploser les coûts de calcul.

DeepSeek n’a pas encore publié toutes les spécifications de R2.

Cependant, des sources proches du projet évoquent un modèle de l’ordre de 1,2 trillion de paramètres au total, avec usage sélectif de ces paramètres par tâche. Source toolkitly.com.

À titre de comparaison, le modèle fondation interne DeepSeek-V3 (sur lequel R1 était construit) possédait déjà 671 milliards de paramètres (37 milliards activés par token.)Source github.comgithub.com.

R2 pousserait donc encore plus loin cette approche, en adoptant une architecture MoE « hybride » nouvelle génération – potentiellement un mélange de couches denses et experts spécialisés – optimisée pour maximiser l’efficacité.

Plusieurs particularités techniques distinguent les modèles de DeepSeek.

D’une part, ils gèrent un contexte extrêmement long :

DeepSeek-V3 supportait jusqu’à 128 000 tokens de contexte, là où GPT-4 plafonne à 32 000 tokens dans sa version étendue. Source github.com.

On peut s’attendre à ce que R2 conserve, voire améliore cette fenêtre contextuelle géante, adaptée aux conversations ou documents très volumineux.

D’autre part, DeepSeek a mis au point des innovations d’entraînementpour accroître l’efficacité et la stabilité du modèle.

Par exemple, V3 a été entraîné en précision mixte FP8.

Une première à cette échelle, afin de réduire la mémoire et le temps de calcul sans perte de performance. Source github.com.

L’architecture intègre également un mécanisme de Multi-Head Latent Attention (MLA) introduit dans la version V2.

De plus, une stratégie d’équilibrage de charge sans perte auxiliaire entre experts.

Cela évite les problèmes usuels de MoE (certains experts sur-sollicités par rapport à d’autres). Source github.com.

DeepSeek a expérimenté des objectifs d’entraînement originaux, comme la prédiction multi-token (générer plusieurs tokens en parallèle), pour augmenter le rendement lors de l’inférence. Source github.com.

Enfin, l’entraînement et l’alignement de R2 bénéficient de techniques de pointe développées en collaboration avec le milieu académique chinois.

DeepSeek a publié début 2025 un article sur le Generative Reward Modelling (GRM) combiné à un « self-principled critique tuning » :

Ces deux méthodes visent à améliorer le raisonnement et la conformité aux préférences humaines. Source scmp.comscmp.com.

En pratique, R2 s’auto-évalue pendant l’entraînement en générant son propre feedback (récompense) et en critiquant ses réponses selon des principes définis.

En effet, cela réduit la dépendance aux annotations humaines et améliore la fiabilité. Source miniflow.ai.

Côté matériel, si DeepSeek-V3 a pu être entraîné à moindre coût (<6 M$) sur des GPU Nvidia H800 limités à la Chine, la nouvelle version R2 cherche à s’émanciper davantage des technologies américaines.

Le modèle serait optimisé pour les puces chinoises Huawei Ascend de dernière génération (910B). Celles-ci reflètent la volonté d’indépendance matérielle de l’écosystème IA chinois. Source toolkitly.com.

Cette optimisation matérielle, couplée à l’architecture MoE, expliquerait pourquoi R2 est annoncé comme « 97,3 % moins coûteux » en inférence que GPT-4 à performance équivalente.

Un chiffre qui illustre le gain d’efficacité phénoménal visé par DeepSeek. Source ndtv.com

Malgré son coût réduit, DeepSeek entend ne faire aucun compromis sur les performances de son modèle.

Les premiers benchmarks publics de la série V3/R1 ont témoigné d’un niveau très élevé, souvent proche des modèles fermés les plus avancés.

Par exemple, DeepSeek-V3 (base du R1) obtenait les meilleurs scores sur la plupart des tests standard parmi les modèles open source de sa catégorie.

Il se hissait même au niveau des meilleurs modèles propriétaires dans de nombreux cas. Source github.com.

Ses points forts sont notamment le raisonnement logique, les mathématiques et le code :

En effet, sur des épreuves comme Math MMLU ou HumanEval en programmation, le modèle V3 surpassait nettement les modèles ouverts concurrents (Qwen 72B d’Alibaba, Llama 3.1 405B, etc.).

Il atteignait des scores comparables à ceux de GPT 4. Source github.comgithub.com.

En programmation, DeepSeek-V3 affichait par exemple un taux de réussite de :

  • 65 % sur HumanEval (contre ~54 % pour Llama 405B)
  • Et dominait GPT-4 sur un challenge de codeforces avec 51,6 % de percentile atteint (versus ~20 % pour GPT-4 dans ce test).

Source github.com.

De même, sur les questions de connaissances générales en chinois, le modèle a brillé :

Il atteint 90,1 % de précision au benchmark C-Eval, témoignant d’une compréhension fine du mandarin. Source  github.com

DeepSeek-R1, version affinée pour le dialogue et le raisonnement, a confirmé ces performances élevées.

La startup affirme que R1 obtient un niveau « comparable à OpenAI-o1 » (surnom donné à GPT-4) sur des domaines clés comme :

  • Les maths,
  • Le code
  • La compréhension linguistique.

Source huggingface.co.

Cette affirmation a été soutenue par des démonstrations où R1 :

  • Résout des problèmes de maths de niveau lycée,
  • Rédige des essais argumentatifs en chinois littéraire
  • Maintient une conversation cohérente sur plusieurs tours.

Des capacités dignes d’un modèle de pointe.

Bien sûr, certains observateurs restent prudents :

Ils soulignent que GPT-4 garde encore une avance dans certains domaines (par exemple le raisonnement complexe sur des cas extrêmes ou la créativité libre).

Néanmoins, les performances coût-efficacité de DeepSeek changent la donne :

Même si R1 n’égalait pas absolument GPT-4 partout, le fait de proposer ~90 % des capacités pour ~2-5 % du coût est perçu comme révolutionnaire. Source ndtv.com.

DeepSeek-R2 devrait enfoncer le clou.

D’après les indications de l’entreprise et des analystes, R2 vise explicitement à se placer au niveau de GPT-4 sur l’ensemble des tâches linguistiques.

R2 vise également à rivaliser aussi avec les modèles de nouvelle génération comme Google Gemini ou Anthropic Claude. Source 2ndtv.com.

Les tests internes mentionnés laissent entendre des progrès en :

  • Compréhension multilingue,
  • Et génération de code.

Secteurs où R2 se voudrait « exemplaire ».

En somme, DeepSeek R2 est attendu comme un modèle étalon pouvant soutenir la comparaison avec les meilleures IA du moment, tout en conservant l’avantage distinctif de DeepSeek :

Une performance obtenue avec des ressources et un coût bien moindre que ses concurrents fermés. Source reuters.comreuters.com.

DeepSeek a adopté une approche très ouverte quant aux usages de ses modèles.

Ils cherchent même à les déployer rapidement dans divers domaines d’application.

Dès son lancement, DeepSeek-R1 a été mis à disposition du grand public via un assistant conversationnel mobile et web.

Cette application grand public, gratuite, a permis à des millions d’utilisateurs d’essayer le modèle pour :

  • Du chat,
  • De la rédaction de textes,
  • Du codage assisté, etc.

C’est sûrement ce qui a contribué à sa popularité fulgurante. Source reuters.com.

Parallèlement, DeepSeek a ciblé l’intégration industrielle de son IA :

En effet, en février 2025, un engouement sans précédent s’est manifesté chez les fabricants d’appareils électroménagers en Chine.

Des groupes tels que Haier, Hisense et TCL Electronics ont annoncé que leurs nouvelles générations de téléviseurs, réfrigérateurs connectés ou robots aspirateurs embarqueraient les modèles de DeepSeek. Source reuters.com.

De même, des constructeurs automobiles et des géants technologiques comme Huawei (infrastructures cloud, smartphones) et Tencent (services en ligne) ont indiqué collaborer pour utiliser l’IA de DeepSeek dans leurs produits. Source reuters.com.

Concrètement, cela signifie par exemple :

Qu’un robot aspirateur équipé de DeepSeek-R1 pourra comprendre des instructions complexes en langage naturel.

Telles que « nettoie délicatement le salon sans toucher aux blocs Lego dans le coin » et les exécuter correctement.

Ceci, grâce à ses capacités de semantic parsing avancées. Source reuters.com.

Dans les téléviseurs ou assistants domestiques, le modèle permettra d’avoir des assistants vocaux beaucoup plus précis.

Effectivement, ils seront capables de :

  • Converser de façon naturelle,
  • De traduire des contenus en temps réel
  • De fournir des recommandations contextuelles.

Les cas d’usage visés couvrent donc un large spectre : smart homes, assistance personnelle, éducation, mais aussi secteurs professionnels.

DeepSeek a également suscité l’intérêt du domaine militaire et de la recherche.

Il a été rapporté qu’un grand institut d’aéronautique chinois (Shenyang Aircraft Design Institute) utilise la plateforme IA de DeepSeek pour accélérer la conception de nouveaux avions de chasse. Source ndtv.com.

L’IA aide les ingénieurs en prenant en charge des tâches d’analyse et de revue fastidieuses, leur permettant d’explorer plus rapidement de nouvelles architectures d’aéronefs.

Le fait que DeepSeek soit exploité dans un secteur aussi critique que l’aérospatial avancé illustre la confiance accordée à ses capacités de raisonnement pointu et de traitement de données techniques complexes.

Pour faciliter ces intégrations, DeepSeek fournit aux développeurs un accès direct à ses modèles via une API.

La documentation indique que l’API DeepSeek est compatible dans son format avec celle d’OpenAI.

Elle rend son adoption simple pour quiconque a déjà utilisé ChatGPT ou d’autres modèles similaires. Source api-docs.deepseek.com.

En pratique, des plateformes tierces permettent même d’appeler l’API de DeepSeek gratuitement (via des routeurs type OpenRouter).

Ceci afin d’incorporer de l’IA conversationnelle dans des chatbots, des outils d’automatisation ou des services de contenu. Source froala.com.

On voit ainsi émerger des intégrations de R1 dans des applications diverses :

  • Assistants de programmation,
  • Plugins de bureautique,
  • Outils de service client en ligne,
  • Etc.

Par ailleurs, DeepSeek propose un site web interactif (chat.deepseek.com) et des SDK, ce qui élargit les possibilités d’usage.

Par exemple, un développeur peut héberger localement le modèle ou utiliser l’interface officielle selon ses besoins.

À noter que la communauté open source, avec l’accès aux modèles DeepSeek sur Hugging Face, a commencé à créer des projets dérivés.

Par exemple, Open-R1sur Hugging Face, une reproduction ouverte du pipeline de R1.

Par conséquent, cela qui multiplie encore les cas d’utilisation expérimentés (recherche académique, fine-tuning sur des domaines spécialisés, etc.). Source huggingface.co.

En résumé, la stratégie d’intégration de DeepSeek vise à rendre son IA omniprésente :

  • Du smartphone à la maison connectée,
  • Des applications grand public aux systèmes d’entreprise

Et mise sur la facilité d’accès (API ouverte, compatibilité standard) et sur la collaboration avec de nombreux partenaires industriels.

La stratégie de DeepSeek se déploie sur deux axes complémentaires :

  • Domination du marché domestique avec le soutien de l’écosystème chinois,
  • Ambition globale en misant sur l’ouverture et l’efficacité technologique.

Sur le marché chinois, l’entreprise vise à fournir le moteur IA de référence pour toutes sortes d’applications.

Plutôt que de se cantonner à un secteur vertical, DeepSeek adopte une approche transversale en s’alliant avec des acteurs de multiples industries.

Plusieurs partenariats ont été annoncés avec :

  • Des fabricants d’électronique grand public (Haier, TCL…),
  • Des groupes automobiles
  • Et même des géants du numérique comme Tencent

Ces partenariats témoignent d’une volonté de diffuser rapidement sa technologie dans des produits du quotidien des Chinois. Source reuters.com.

Cette large adoption B2B s’appuie sur un fort soutien politique :

Les autorités chinoises voient en DeepSeek un champion national de l’IA capable de rattraper et de défier les États-Unis.

Ainsi, le fondateur a été félicité publiquement, et DeepSeek est brandi comme un exemple que la Chine peut atteindre la parité technologique avec GPT-4 en s’appuyant sur ses propres ressources. Source reuters.com.

Cette proximité avec l’agenda national (souveraineté technologique) laisse penser que DeepSeek pourrait bénéficier de facilités.

Que ce soit en matière de financement public, d’accès à des données réglementées, ou de collaborations avec des institutions de recherche comme l’Université Tsinghua (avec qui DeepSeek a co-développé des avancées en raisonnement IA). Source scmp.com.

À moyen terme, DeepSeek affiche des objectifs ambitieux.

L’entreprise compte continuer son rythme d’itération rapide :

Après R2, on peut anticiper un DeepSeek-R3 ou d’autres variantes améliorées dans les 12-18 mois.

Ceci consolidant à chaque fois les points faibles identifiés (un peu à l’image de l’enchaînement Spark 3.0 → 3.5 → 4.0 chez iFlytek).

DeepSeek a déjà montré sa capacité à diversifier sa gamme avec des modèles spécialisés (par ex. la série DeepSeek-Prover pour les preuves mathématiques) qu’elle a immédiatement proposés en open source. Source scmp.com.

Cette stratégie de sortir des modules focalisés (code, maths, etc.) vise à combler toute lacune de son modèle généraliste en s’appuyant sur la communauté et les retours utilisateurs.

DeepSeek mise sur l’innovation ouverte comme levier concurrentiel face aux géants bien dotés financièrement :

En partageant ses outils, elle catalyse un écosystème de développeurs et de chercheurs autour de ses modèles, ce qui accroît son avance en amélioration continue.

Elle prévoit d’open-sourcer des composants clés comme “Flat MLA” et “Deep GEM” liés à R2. Source toolkitly.com.

La startup adopte pour l’instant une posture offensive axée sur le volume et l’adoption plutôt que la monétisation immédiate.

R1 était gratuit et open source, R2 devrait suivre une distribution similaire.

Cette gratuité contrôlée vise à occuper le terrain face aux solutions d’OpenAI ou Baidu qui, elles, sont soit payantes soit moins ouvertes.

DeepSeek espère ainsi s’imposer comme la plateforme par défaut pour quiconque cherche à intégrer un LLM, en particulier dans les pays émergents ou les entreprises ayant des ressources limitées (le faible coût d’inférence de R1/R2 étant un argument massue).

À moyen terme, DeepSeek pourrait convertir cette base d’utilisateurs en revenus via des services premium.

Par exemple :

  • Du fine-tuning sur mesure,
  • De l’hébergement cloud optimisé sur serveurs chinois,
  • Du support entreprise.

Mais officiellement, ses dirigeants mettent en avant une vision à long terme orientée vers la recherche d’une IA générale (AGI) et la contribution au bien commun, plutôt qu’un profit à court terme.

Des rapports suggèrent d’ailleurs que DeepSeek a refusé pour l’instant des investissements externes massifs afin de garder son indépendance et rester alignée sur sa mission scientifique de long terme. Source miniflow.ai.

Cette posture rappelle celle d’OpenAI à ses débuts, combinée à un discours de souveraineté technologique :

DeepSeek veut prouver que la Chine peut innover de façon autonome en IA et partager cette innovation avec le monde selon ses propres termes.

En résumé, la stratégie de DeepSeek vise à consolider un leadership domestique en s’insérant dans tous les usages stratégiques (éducation, industrie, administration, consumer tech) tout en construisant une renommée internationale grâce à l’open source et à des performances de pointe.

L’entreprise se projette comme un rival sérieux des GAFAM sur le terrain de l’IA avancée, et chaque nouveau modèle (R2, puis d’autres) est un pas vers cette ambition de changer l’équilibre des forces dans l’IA globale.

DeepSeek a opté pour un modèle de distribution très ouvert de ses IA, contrastant avec l’approche fermée de nombreux concurrents.

Le modèle DeepSeek-R1 a été publié en open source dès son lancement, avec mise à disposition des poids du modèle sur Hugging Face et d’une licence permissive (MIT) autorisant la réutilisation. Source scmp.comscmp.com.

Cela signifie que chercheurs et développeurs du monde entier peuvent télécharger le modèle, l’exécuter localement, l’auditer et même le modifier.

Cette ouverture a été saluée comme sans précédent pour un modèle de ce calibre : « free open-source AI model to rival OpenAI’s ChatGPT » titrait Reuters. Source reuters.com.

DeepSeek-R2 devrait suivre la même voie.

L’entreprise indique vouloir continuer à encourager la collaboration ouverte, et des projets communautaires anticipent déjà sa sortie.

Par exemple, un événement de lancement autour du 8 mai 2025 a fuité, et Hugging Face prépare l’arrivée d’Open-R2 sur le modèle d’Open-R1. Source toolkitly.com.

En plus des poids bruts, DeepSeek partage outils et frameworks liés :

  • L’implémentation de son architecture (MoE, MLA…) est disponible sur GitHub,
  • Des modules comme le chat web
  • Les solutions d’optimisation d’inférence (DeepSpeed, etc.) sont fournies pour faciliter l’utilisation par la communauté.

Par ailleurs, DeepSeek assure une distribution grand public via des interfaces clientes.

Son application mobile et son site web de chat permettent à n’importe quel utilisateur d’interroger le modèle R1 (et bientôt R2) sans avoir à gérer l’infrastructure.

L’accès y est pour l’instant gratuit, avec éventuellement des limitations de quota pour les très grosses sessions.

Pour les entreprises et développeurs, DeepSeek propose une plateforme API dédiée. Source : platform.deepseek.com.

L’inscription à cette plateforme donne une clé API.

Cette clé permet d’envoyer des requêtes au modèle hébergé dans le cloud de DeepSeek, de façon assez similaire à l’API d’OpenAI (les formats de requête/réponse sont compatibles). Source : api-docs.deepseek.com.

Cette compatibilité a été pensée pour abaisser le frein à l’adoption :

Une startup chinoise qui utilisait GPT-4 via un proxy peut migrer sur DeepSeek avec un minimum de modifications de code.

À noter que pendant la phase de conquête du marché, l’API de DeepSeek est gratuite ou très peu facturée.

Certaines sources mentionnent un usage développeur gratuit, notamment via des hubs comme OpenRouter. Source : reddit.com.

On peut s’attendre à ce qu’à terme un modèle économique freemium se mette en place (quota gratuit puis tarification très compétitive).

Quoi qu’il en soit, le coût d’inférence étant annoncé ~97 % inférieur à celui de GPT-4, DeepSeek aura la marge pour pratiquer des prix agressifs tout en couvrant ses frais. Source : ndtv.com.

En matière d’accessibilité, DeepSeek soigne donc autant le canal :

  • open source (pour rassurer sur la transparence et stimuler l’innovation tierce)
  • Et commercial (pour toucher le plus grand nombre d’utilisateurs et d’entreprises sans compétences techniques particulières).

Cette distribution double (open et service) rappelle celle de Meta avec LLaMA 2 (open source + services Azure), à la différence près que DeepSeek publie des modèles de taille bien supérieure en pleine ouverture.

Du point de vue international, cette accessibilité pose toutefois des questions :

En tant qu’entreprise chinoise, DeepSeek doit se conformer aux régulations locales sur les contenus générés.

Sur ses applications et API officielles, il existe sans doute des filtres pour censurer les demandes politiquement sensibles ou inappropriées, conformément aux directives de Pékin, même si le modèle en soi est disponible en open source.

Les utilisateurs occidentaux peuvent donc préférer auto-héberger le modèle pour éviter toute censure ou collecte de données.

La création du projet Open-R1 par Hugging Face – visant à reproduire le modèle avec des données publiques – montre d’ailleurs une volonté de la communauté d’avoir une version 100 % ouverte et reproductible sans dépendre d’une entité unique. Source huggingface.co.

Néanmoins, la démarche de DeepSeek en matière de distribution est largement perçue comme positive et démocratisante :

Elle contraste avec la rareté d’accès à GPT-4 (modèle fermé et payant) et pourrait pousser l’industrie vers plus d’ouverture.

Le principal atout de DeepSeek-R2 est son efficacité hors norme, fruit de choix technologiques audacieux.

Il parvient à offrir des performances de pointe comparables aux meilleurs LLM (GPT-4, etc.) tout en nécessitant bien moins de ressources, ce qui le rend beaucoup plus économique à déployer.

Cette optimisation ouvre la porte à des usages sur des équipements plus légers (PC, appareils embarqués) là où d’autres modèles exigent de coûteux serveurs GPU. Source : reuters.com.

Ensuite, R2 bénéficie de l’héritage de R1/V3 qui ont prouvé leur excellence en raisonnement complexe et en codage.

Dans ces domaines cruciaux (résolution de problèmes mathématiques, génération et correction de code, logique multi-étapes), DeepSeek figure parmi les tout meilleurs modèles connus, surpassant même GPT-4 sur certains benchmarks spécifiques. Source : github.com.

Pour les utilisateurs, cela signifie une fiabilité accrue sur les tâches techniques et analytiques.

Un autre avantage notoire est la maîtrise multilingue.

Contrairement à beaucoup de modèles centrés sur l’anglais, DeepSeek a été entraîné massivement sur des données en chinois et dans d’autres langues.

Cela lui confère une compréhension fine du mandarin (contextes culturels, idiomes) sans équivalent hors de Chine reuters.com.

De plus, il conserve d’excellentes capacités en anglais et même en langues européennes (R2 ajoutera explicitement l’italien, etc. dans ses priorités). Source : toolkitly.com.

Cette polyvalence linguistique en fait un modèle truly global, utilisable dans des contextes variés d’un pays à l’autre.

Ainsi, il évite d’avoir recours à des systèmes de traduction intermédiaires.

Par ailleurs, DeepSeek-R2 est conçu comme un modèle multi-modal unifié – apte à traiter non seulement :

  • Du texte,
  • Des images,
  • Du son
  • De la vidéo simple dans un même cadre.

Source : miniflow.ai.

Il peut par exemple comprendre une question accompagnée d’une image, ou générer une description audio, ce qui lui donne un spectre fonctionnel proche de celui de GPT-4 (qui a la vision) et d’autres futurs modèles multimodaux.

Enfin, le caractère open source de DeepSeek est un avantage stratégique.

Cela garantit :

  • Une certaine transparence (la communauté peut examiner le modèle, tester ses limites),
  • Une auditabilité scientifique,
  • Et cela permet à des milliers de développeurs de contribuer à l’améliorer ou à l’adapter, accélérant son évolution.

Cette dynamique communautaire, associée à la bienveillance initiale de DeepSeek (mise à disposition gratuite, communication active avec les chercheurs), crée un écosystème favorable autour du modèle.

C’est un avantage d’adoption que ne possèdent pas des IA fermées.

Malgré ses qualités, DeepSeek-R2 demeure un modèle récent dont certaines limites apparaîtront à l’usage intensif.

D’abord, si son architecture hybride est révolutionnaire, elle reste complexe à déployer en dehors de l’environnement optimisé de DeepSeek.

Avec plus d’un trillion de paramètres au total, faire tourner R2 en local n’est pas à la portée de tout le monde :

Il faudra une infrastructure distribuée et du savoir-faire pour profiter pleinement de sa puissance (là où un GPT-3.5 plus petit peut s’exécuter sur un seul GPU).

Le modèle n’est donc « léger » qu’en inférence une fois bien configuré – ce qui peut être un frein pour certains utilisateurs open source sans ressources (même si des services cloud tiers combleront ce besoin).

Ensuite, la multimodalité de R2 reste embryonnaire comparée à des IA spécialisées.

Par exemple, s’il peut analyser une image ou un extrait audio, il n’est pas certain que ses capacités égalent celles d’un modèle dédié en vision.

Par exemple comme Midjourney pour créer des images, ou même GPT-4 Vision pour interpréter des photos complexes.

DeepSeek admet d’ailleurs que la génération d’images n’est pas son fort actuel. Source : ndtv.com.

Il faudra voir si R2 excelle vraiment en traitement visuel ou s’il s’agit d’une fonctionnalité de base à approfondir.

De même, en génération de code, bien que très performant, R2 pourrait ne pas encore atteindre la robustesse exhaustive de GPT-4 sur tous les langages ou problèmes (GPT-4 ayant été longuement testé et affiné sur d’innombrables scénarios de codage).

En benchmark, R2 rivalise sur du Python ou des algos classiques, mais en conditions réelles, la qualité du support (outils de debugging, explication de code, etc.) devra être éprouvée face à un Copilot par exemple.

Par ailleurs, une limite importante à considérer est le recul limité dont on dispose sur l’alignement et la sûreté de R2.

DeepSeek a implémenté des mécanismes d’auto-critique et de reward modeling.

Ceci dans le but de réduire les hallucinations.

C’est prometteur, mais seule l’expérimentation massive révélera dans quelle mesure le modèle évite réellement les réponses factuellement fausses ou inappropriées. Source : miniflow.ai

Des modèles open source précédents ont souvent montré une propension aux hallucinations plus élevée que les modèles fermés fortement filtrés.

R2 devra donc confirmer qu’il peut fournir des réponses fiables sur la durée sans supervision humaine intensive.

De plus, venant de Chine, le modèle peut incorporer certains biais culturels ou politiques liés à ses données d’entraînement.

Il a probablement été entraîné en évitant les contenus sensibles (pour se conformer aux lois), ce qui peut limiter sa connaissance de certains sujets (ex. sujets politiques chinois délicats).

Les utilisateurs internationaux peuvent donc trouver de angles morts dans ses réponses ou un style parfois plus prudent sur certains thèmes, comparé à un GPT-4 entraîné sur une variété plus large de perspectives.

Enfin, il faut noter que la concurrence ne reste pas immobile.

OpenAI prépare GPT-5 (ou renforce GPT-4), Google va lancer Gemini, etc.

DeepSeek devra prouver sur la durée sa capacité à innover aussi vite que les mastodontes disposant de ressources colossales.

Son pari sur l’open source pourrait aussi être récupéré par d’autres (Hugging Face cherchant à reproduire R1, d’autres startups pourraient cloner l’approche).

En somme, ses avantages d’aujourd’hui pourraient s’éroder si l’entreprise ne maintient pas son avance technique et sa communauté.

En conclusion, DeepSeek-R2 présente un profil extrêmement prometteur :

  • Puissant,
  • Polyvalent,
  • Accessible.

C’est une combinaison rare qui lui confère un avantage compétitif évident en 2025.

Ses limites existent mais apparaissent pour la plupart surmontables ou temporaires, liées soit à son jeune âge, soit à des choix de prudence.

Si DeepSeek améliore la multimodalité, affine l’alignement et facilite le déploiement, son modèle pourrait devenir une référence durable dans les IA de nouvelle génération et réconcilier innovation privée et collaboration ouverte.