Une société chinoise d’IA a dévoilé jeudi DeepSeek-V3, un nouveau modèle de langage puissant qui fait des vagues grâce à sa rentabilité revendiquée et sa disponibilité ouverte. Cette version remet directement en question la domination des modèles fermés comme la série GPT d’OpenAI et soulève des questions importantes sur l’avenir de l’accessibilité et de l’abordabilité de l’IA.
Les tests internes de l’entreprise montrent que le modèle excelle en anglais, en chinois, en codage et en mathématiques, rivalisant même avec les principaux modèles commerciaux comme le GPT-4o d’OpenAI. La taille du modèle, avec 671 milliards de paramètres, éclipse le Llama 2 (70B) de Meta et dépasse même le Llama 3.1 (405B), contribuant potentiellement à ses performances revendiquées.
Les utilisateurs individuels peuvent facilement explorer son potentiel grâce à un chatbot gratuit sur le site Web de DeepSeek. Cet outil interactif effectue non seulement des recherches sur le Web, mais fournit également des informations précieuses sur le processus de prise de décision du modèle en affichant ses étapes de raisonnement.
Tout en offrant des performances similaires à celles de ce que la communauté appelle les « modèles frontières », DeepSeek-V3 excelle également par ses coûts de développement et d’exploitation inférieurs. DeepSeek affirme avoir dépensé seulement 5,5 millions de dollars pour former le modèle, soit une fraction des plus de 100 millions de dollars estimés investis par OpenAI dans GPT-4.
DeepSeek-V3 revendique en outre des prix nettement inférieurs pour ses services en ligne, avec 1 million de jetons au prix de seulement 1,1 USD, actuellement proposés au tarif promotionnel de 0,28 USD, un contraste frappant avec le prix de 10 USD de GPT-4o.
En plus de son potentiel disruptif, DeepSeek-V3 est disponible en téléchargement gratuit et en exécution locale, ce qui offre des avantages significatifs aux utilisateurs qui privilégient la confidentialité des données, travaillent dans des zones avec un accès Internet limité ou recherchent un meilleur contrôle sur leurs outils d’IA. Cela contraste fortement avec des modèles comme le Copilot de Microsoft, le Gemini de Google et la série GPT d’OpenAI, qui nécessitent une connexion Internet constante.
Pour les entreprises qui accordent la priorité à la sécurité des données, le déploiement d’une copie locale de DeepSeek-V3 offre une solution puissante, leur permettant d’exploiter l’IA de pointe sans compromettre les informations sensibles.
Cependant, la taille même de DeepSeek-V3 présente un obstacle important pour les utilisateurs particuliers : l’exécution de DeepSeek-V3 nécessite un matériel important, bien au-delà des capacités des PC et des smartphones. Les utilisateurs individuels préféreront probablement son chatbot gratuit.
Pour l’instant, les exemples concrets et vérifiables d’exécution locale réussie restent limités, et une vérification indépendante des déclarations de performance de l’entreprise est toujours nécessaire. Un blogueur a affirmé que le modèle pouvait fonctionner sur un cluster de huit Apple Mac Mini Pro, chacun doté d’une puissante puce M4 et de 64 Go de mémoire. L’ensemble de la plate-forme coûte plus de 10 000 $.
DeepSeek reconnaît la grande taille du modèle et sa vitesse imparfaite, attribuant ces limitations aux contraintes matérielles actuelles. Ils expriment leur optimisme quant au fait que les progrès du matériel résoudront naturellement ces problèmes.
Leur objectif ultime, selon un document de recherche publié sur le site Web de l’entreprise, est de parvenir à une intelligence artificielle générale tout en maintenant un engagement en faveur du libre accès et du développement à long terme.