
La genèse de Spark Desk
En dehors des BATX, un acteur chinois Vincent Zhan se distingue dans l’IA :
iFlytek, spécialiste historique de la reconnaissance vocale.
Basée à Hefei, cette entreprise a lancé son modèle de langage baptisé SparkDesk (Xinghuo) dès mai 2023, avec l’ambition annoncée de rivaliser ChatGPT en chinois.
iFlytek a procédé par itérations rapides (Spark 1.0, 2.0…) et a affirmé en octobre 2023 que SparkDesk 3.0 avait quasiment rattrapé GPT-4 sur le plan linguistique. Source : aibase.com.
En janvier 2024, iFlytek a dévoilé Spark Desk V3.5, revendiquant qu’il surpasse GPT-4 Turbo (version allégée de GPT-4) en compréhension du langage et en mathématiques, atteignant même 91% des capacités multimodales de GPT-4. Source : technode.com.
Puis en juin 2024, la version Spark 4.0 a été lancée officiellement, avec des prétentions encore accrues.
Selon iFlytek, il est « au niveau de GPT-4 Turbo » sur des aspects comme :
- La compréhension du langage,
- Le raisonnement logique,
- Les maths et le Q&R de connaissances
Spark 4.0 accusant seulement du retard en codage et en d’images. Source : caixinglobal.com.
Autrement dit, iFlytek admet que pour le code et le multimodal, son modèle est encore en retrait, mais clame l’excellence sur les autres usages.
Détails techniques
On dispose de peu d’informations publiques sur l’architecture de Spark Desk. Il s’agit probablement d’un transformeur dense de taille moyenne (peut-être autour de 70-100B de paramètres).
Le fait qu’iFlytek se soit allié à Huawei pour l’entraînement (le modèle 3.5 a été entraîné exclusivement sur des clusters Huawei Ascend) indique qu’ils ont accès à une puissance de calcul conséquente via les puces Ascend et le cloud Huawei.
Spark 4.0 est très focalisé sur le mandarin :
En effet, l’entreprise s’est notamment illustrée en faisant passer à son IA les examens d’admission universitaire chinois, où Spark arrivait premier parmi les modèles chinois testables. Source : technode.com.
Son jeu de données est centré sur les sources en chinois et sans doute sur les documents officiels (lois, encyclopédies).
iFlytek, étant un champion de la speech tech, a naturellement doté Spark de fonctions voix :
- Conversation en langage naturel oral,
- Conversion texte-parole de haute qualité, etc.
Spark Desk est conçu pour être un assistant généraliste (éducation, bureautique, code, etc.).
iFlytek a décliné le service en plusieurs verticales (Spark pour l’éducation, Spark pour les développeurs, etc.).
La version 4.0 améliore la mémoire sur longue conversation et la cohérence des réponses complexes, ce qui montre un travail sur l’alignement et le RLHF possiblement.
Performances et applications
iFlytek souligne que Spark est optimisé pour le marché domestique :
Par exemple, Spark 4.0 comprend mieux les contextes culturels chinois et les expressions en mandarin, et fournit des réponses plus adaptées qu’un ChatGPT non fine-tuné pour le chinois. Source : scmp.com.
En octobre 2023, iFlytek a fait sensation en déclarant que Spark avait dépassé ChatGPT en compréhension du chinois.
L’affirmation difficile à vérifier mais qui a été reprise par la presse chinoise et a fait monter l’action d’iFlytek. Source : scmp.com
Les démonstrations montrent Spark :
- Rédiger des essais argumentatifs en chinois littéraire,
- Résoudre des problèmes de math niveau lycée,
- Et dialoguer de manière assez cohérente.
L’absence de multimodalité forte (images) limite certaines cases d’usage face à Ernie 4.0 ou GPT-4, mais iFlytek est un expert audio :
Spark gère très bien tout ce qui est conversation vocale en mandarin (y compris reconnaissance vocale intégrée et synthèse vocale répondante).
Stratégie
Se rendre indispensable
iFlytek vise en priorité les secteurs éducatif et gouvernemental.
Son PDG a publiquement déclaré qu’ils comptent rendre Spark indispensable dans les écoles et la formation.
Par exemple en générant des exercices personnalisés, en faisant du tutorat virtuel.
D’ailleurs, Spark Desk a été le premier chatbot autorisé sur WeChat (sous forme d’un compte officiel « Spark ») dès juillet 2023 :
Essentiellement comme tuteur d’anglais et assistant éducatif, ce qui s’aligne avec la mission d’iFlytek en Chine (fournisseur de solutions pour l’éducation intelligente).
De plus, iFlytek collabore avec des institutions publiques, proposant Spark pour aider à la rédaction de rapports administratifs ou l’analyse juridique.
L’entreprise a donc l’avantage d’une bonne image auprès des autorités (spécialisée IA vocale depuis 20 ans, fournisseur du gouvernement notamment pour la traduction automatique lors des JO…).
Elle joue donc la carte du patriotisme technologique, annonçant par exemple que Spark sera l’outil pour contrer les restrictions américaines sur les puces.
C’est ce qui lui a valu des financements (elle a levé plus de 400 M$ fin 2023, notamment via des fonds publics). Source : scmp.com.
Distribution semi-ouverte
iFlytek a choisi une distribution semi-ouverte de Spark Desk :
Accessible gratuitement au public via une application mobile et un site web, mais pas d’open source des modèles.
En avril 2024, ils ont toutefois mis en ligne une API Spark pour les développeurs, cherchant à concurrencer directement l’API OpenAI (beaucoup de startups chinoises de contenu utilisaient l’API OpenAI via des proxys avant).
Là encore, le pricing d’iFlytek est agressif comparé à l’occident.
On peut penser que Spark sera interopérable avec les solutions Huawei (il a été co-entraîné sur Ascend AI Cloud).
D’ailleurs, l’Ascend AI Cloud est vanté par iFlytek comme la plateforme sur laquelle Spark 3.5 a tourné, preuve de l’indépendance vis-à-vis de NVIDIA. Source : technode.com.
Cela rejoint un objectif politique plus large :
Démontrer qu’avec des puces chinoises et des modèles locaux, on peut atteindre la parité avec GPT-4.
Spark 4.0 représente cette réussite du rattrapage technologique aux yeux d’iFlytek (même si concrètement, sur le codage, l’entreprise reconnaît que GPT-4 reste supérieur). Source : caixinglobal.com.
En résumé, SparkDesk d’iFlytek incarne la stratégie d’un acteur verticalement spécialisé (la voix et l’éducation) qui utilise les LLM pour renforcer son offre.
Moins généraliste que Baidu ou Alibaba, Spark se concentre pour exceller dans la langue chinoise et dans les applications éducatives.
L’entreprise a d’ailleurs annoncé viser explicitement GPT-4 comme référence à atteindre au premier semestre 2024, promesse tenue selon elle avec Spark 4.0 en milieu d’année. Source : technode.com.
À l’avenir, iFlytek pourrait combler son retard en code et imagerie en s’associant à d’autres (par exemple un partenariat avec Huawei ou avec un labo pour la partie vision).