DeepSeek : L'onde de choc d'un nouvel acteur chinois💥
Une réflexion sur l'effervescence de ce début d'année autour du CES 2025, de DeepSeek et du sommet de l'IA.
Il y a quelques jours à peine, l'action NVIDIA a subi un hoquet de -400 milliards de dollars de valorisation en raison de l'arrivée fracassante d'un nouvel acteur chinois : DeepSeek, développé par la société Scale AI.
🔎Un emballement médiatique sans réelle analyse
Comme souvent dans ce type de situations, les commentaires et analyses se sont multipliés, parfois de manière précipitée, sans que les enjeux réels ne soient totalement compris. Ben Thompson, dans son article sur Stratechery, a su poser les termes d'une réflexion plus aboutie.
🚀L'impact des restrictions américaines sur l'innovation chinoise
Les restrictions imposées par l'administration Biden sur les puces NVIDIA H100 ont contraint les entreprises chinoises à s'adapter en exploitant des cartes H800, moins performantes. Ce n'est pas la réglementation qui a déclenché cette vague d'innovation, mais bien la pression du marché et les impératifs économiques. Les ingénieurs chinois ont dû redoubler d'ingéniosité pour surmonter ces obstacles, prouvant que l'innovation est avant tout une réponse aux contraintes commerciales. L'Europe, elle, peine encore à intégrer cette logique, privilégiant une approche réglementaire qui freine parfois l'adaptation et la compétitivité.
⚙️Une innovation clé : la réduction de la précision des modèles d'IA
Les modèles d'IA sont des structures massives utilisant des nombres à virgule flottante. L'innovation majeure de Scale AI a consisté à réduire la précision de ces nombres, passant de 16 bits à 8 bits, optimisant ainsi les ressources disponibles.
Mais la réduction du nombre de chiffres après la virgule ne s'est pas faite de manière brutale. Normalement, un modèle est entraîné en confrontant ses décisions à une base d'expertise (GPT-4 aurait été entraîné sur 16). DeepSeek a adopté une approche Mixture of Experts (MoE), qui sélectionne dynamiquement les expertises les plus pertinentes en fonction des besoins spécifiques de chaque phase d'entraînement, plutôt que d'exploiter systématiquement toutes les expertises disponibles. Cela permet d'optimiser l'allocation des ressources et d'améliorer la vitesse d'entraînement, bien que cela puisse légèrement impacter la précision.
Ainsi, une expertise en Histoire de l'Art n'est pas nécessaire pour un sujet sur la mécanique quantique. ou pas ...
💻Optimisation hardware : une prouesse technique
Les cartes H800 souffrant également de limitations sur la bande passante entre les GPU, les ingénieurs ont poussé l'optimisation encore plus loin. En recodant en pseudo-assembleur 20 des 132 unités de chaque carte, la puissance de calcul étant utilisée pour compresser et réorganiser les données transitant dans les tuyaux, exploitant les capacités matérielles jusqu'à leur limite.
📱Une confusion entre l'application et le modèle
Beaucoup de médias ont confondu l'application DeepSeek, qui a été massivement téléchargée sur les AppStores et qui doit se conformer aux législations locales en matière de modération et d'utilisation des données, avec le modèle lui-même, qui est open-source et non censuré. Cette distinction est essentielle pour comprendre l'impact réel de DeepSeek et éviter les amalgames sur sa portée et son contrôle.
Via Ari 📝: Le modèle aurait une partie de censure contairement à Qwen.
🤖Une comparaison biaisée avec OpenAI
De nombreux analystes se sont empressés de comparer les milliards dépensés par OpenAI pour entraîner son modèle à ceux de DeepSeek. Or, il ne s'agit pas du tout du même processus.
OpenAI a entraîné son modèle sur des bases de données annotées (peut-être volées, biaisées, synthétiques, etc., mais ce n'est pas le sujet ici). En revanche, DeepSeek a utilisé une approche différente en interrogeant les modèles existants pour entraîner le sien. Ce procédé ingénieux s'appelle la distillation, une technique qui permet d'apprendre en interrogeant des modèles existants. Il est probable qu'OpenAI l'emploie aussi, mais la différence fondamentale reste qu'OpenAI a dû, à un moment, générer ses propres connaissances initiales.
Dans un cas, on crée la Joconde, dans l'autre, on essaie de la reproduire en regardant l'originale. Ce n'est pas comparable, et illustre bien le dilemme de la poule et de l'œuf : à un moment, il faut investir massivement pour créer un modèle original. Cette différence fausse donc les comparaisons et les chiffres avancés dans certaines analyses même si au final le résultat est très bon.
🌐Une révolution pour l'avenir de l'IA
Même si la forme est discutable, sur le fond, DeepSeek, contraint par son environnement économique, a offert un cadeau énorme au reste du monde en prouvant qu'on est encore au tout début de l'histoire de l'IA. En étant un peu malin, il est possible d'optimiser énormément de choses, ce qui va drastiquement réduire les coûts et la consommation énergétique de l'IA, faisant ainsi mentir les éco-sceptiques.
Ce que l'on observe dans l'entraînement et l'inférence est également vrai dans d'autres domaines comme la gestion du contexte et des connaissances, où de nouvelles architectures RAG apparaissent chaque semaine. Le RAG, rappelons-le, est un hack permettant d'injecter des connaissances dans un modèle sans passer par un fine-tuning plus complexe.
Nous sommes dans une période similaire aux années 2000, lorsque la création d'une simple page web coûtait 15 000 €. Il est étonnant de constater à quel point la mémoire collective est courte ! Steven Sinofsky nous explique que l'histoire est proche de celle de CISCO.
Pendant ce temps, d'autres acteurs comme Alibaba et son modèle Qwen suivent la tendance. De plus, des modèles multimodaux comme Janus Pro émergent. Et le modèle YuE-s1-7B propose l'équivalent de Suno en OpenSource !
⏳Optimisation vs précision : un équilibre fragile
Toutefois, il faut garder en tête que ces optimisations se font au détriment de la précision ! Cela peut poser problème si l'objectif est d'atteindre l'AGI. Heureusement, il apparaît que la course à la taille des modèles n'est pas la solution ultime. Des approches comme celles des modèles o1, plus récemment o3 ou encore DeepSeek R1, qui cherchent plutôt à raisonner, comme le ferait un humain lorsqu'il réfléchit à un problème serait la suite de l'histoire. Mais cela implique davantage d'inférences et ainsi consommer tous les gains apportés par l'innovation à l'origine de ScaleAI.
Par ailleurs, DeepSeek R1 a amélioré le code de DeepSeek R1 par un facteur de 2... Le début de la Singularité ? Il est peut-être temps de guetter l'arrivée de voyageurs temporelle voulant arrêter cela 🙂
📡Un changement vers une IA on Edge
Si l'on prend du recul avec ce qu'a annoncé NVIDIA lors de sa KeyNote au CES 2025, on observe une transition vers un modèle où l'exécution des inférences se fait de plus en plus en local, "on edge", plutôt que dans le cloud. Que ce soit dans le mobile, la voiture, la maison, le travail ou encore les robots, cette évolution va démultiplier les usages en supprimant les barrières de coût à la requête. Cependant, cette approche risque d'avoir un impact écologique considérable et de soulever de nouveaux enjeux liés à l'exploitation des données, des flux et des infrastructures matérielles.
☠️Expertise as a service et culte du secret
Dans son article suivant, Ben Thompson propose une réflexion ultra intéressante sur l'avenir de l'IA en tant que fournisseur d'expertise as a service grâce à des mécaniques comme DeepSearch.
Demain, pour une question de plomberie, de médecine ou de droit, l'IA sera capable de synthétiser des volumes colossaux d'informations et d'en extraire une analyse intelligente et éclairée. Alors, pourquoi payer un expert ?
Si l'expertise devient une commodité accessible via l'IA, les spécialistes n'auront plus intérêt à partager leurs connaissances. Là où la diffusion du savoir était autrefois un levier de visibilité et de reconnaissance, elle pourrait désormais devenir un handicap, de la même manière qu'au début des années 2000, les moteurs de recherche ont relégué au second plan les auteurs d'articles au profit des plateformes d'agrégation.
L'avenir pourrait alors voir émerger un culte du secret, une valorisation accrue de la propriété intellectuelle (IP), des stratégies de désinformation et d'empoisonnement des IA... Bref, un retour 25 ans en arrière ?
🌟Take Aways
➡️ Les contraintes business ont permis une révolution économique sur l'entrainement et l'inférence des modèles.
➡️ Cependant, ces gains seront rapidement absorbés par l'évolution vers des modèles capables de raisonnement avancé.
➡️ L'IA se déplace progressivement vers une exécution locale "on edge", réduisant la dépendance au cloud.
➡️ Pendant que la Chine et les États-Unis innovent à grande vitesse, l'Europe reste spectatrice, commentant et payant pour des services développés ailleurs et subventionné par le Quatar...
➡️ Un véritable enjeux de la rémunération de l’expertise.