Vcg

Permettez-moi de commencer par ma conclusion: la clé de Deepseek au succès est de maximiser l’efficacité sous des contraintes.

En raison des restrictions d’exportation des puces américaines, les entreprises chinoises ne peuvent pas accéder aux puces d’IA de pointe comme le H100 de Nvidia, qui sont supérieures dans la bande passante et la vitesse de communication. Cela a forcé Deepseek à innover sous les limitations du matériel, poussant l’efficacité à l’extrême en minimisant les déchets de calcul et en maximisant chaque cycle du GPU.

Voici quelques exemples sur la façon dont Deepseek a optimisé ses performances:

: Des modèles traditionnels comme GPT-3.5 activent l’ensemble du modèle pour chaque tâche. L’approche MOE de Deepseek divise le modèle en plusieurs «experts» spécialisés et active uniquement ceux nécessaires, améliorant considérablement l’efficacité. Cela signifie qu’au lieu d’utiliser toutes les ressources du modèle pour chaque tâche, seules les pièces les plus pertinentes sont utilisées, ce qui réduit les frais généraux de calcul.

: Cette technique comprime l’utilisation de la mémoire en se concentrant sur des informations contextuelles clés plutôt qu’à tout stocker – comme se souvenir de l’essence d’un livre plutôt que sur chaque mot. L’attention latente aide à hiérarchiser les données les plus importantes, permettant au modèle de Deepseek de stocker et de traiter des informations moins pertinentes et plus pertinentes tout en conservant des performances élevées. En sélectionnant uniquement les données critiques, Deepseek réduit la tension sur la mémoire et accélère le traitement.

: Au lieu d’utiliser des formats de haute précision comme BF16 ou FP32, Deepseek stocke les paramètres dans FP8, réduisant les exigences de mémoire sans perte de précision significative. Imaginez remplacer des images haute résolution par des croquis bien détaillés – moins de données, même impact.

Dans le rapport technique de Deepseek sur son modèle V3, ils mentionnent que leur formation a utilisé les GPU H800 de Nvidia. L’émergence de ce produit est liée aux restrictions d’exportation des puces du gouvernement américain imposées à la Chine. Le H100, l’un des GPU les plus puissants pour la formation de l’IA, n’était pas disponible pour les entreprises chinoises en raison de ces restrictions, ce qui a conduit Nvidia à créer le H800 en tant que version « mise à l’échelle » pour se conformer aux contrôles d’exportation.

Alors, que signifie exactement « mise à l’échelle »? La principale différence réside dans la bande passante de communication Cross-GPU – lorsque les tâches de l’IA doivent être distribuées sur plusieurs GPU, ils nécessitent un échange de données rapide, similaire à un groupe de travailleurs collaborant sur une tâche. Si la bande passante est limitée, cette communication ralentit, ce qui a un impact sur l’efficacité globale de calcul. La bande passante NVLink dans le H800 est considérablement réduite, un peu comme les travailleurs passant de la communication en face à face à l’utilisation de talkies-walkies, entraînant une collaboration moins efficace.

L’approche de Deepseek est de sauter le « commandant » et de le faire eux-mêmes. NVIDIA fournit déjà un système de gestion de haut niveau pour l’informatique GPU – CUDA (Calculer l’architecture de l’appareil unifié). Considérez Cuda comme un gestionnaire d’usine qui peut attribuer automatiquement des tâches aux travailleurs (cœurs GPU) sans que l’utilisateur n’ait besoin de se soucier des détails de bas niveau. Cependant, dans le cas des limitations du H800, Deepseek a constaté que la méthode de planification par défaut fournie par CUDA n’était pas suffisante pour leurs besoins d’optimisation extrêmes.

Pour surmonter ce goulot d’étranglement matériel, les ingénieurs de Deepseek ont ​​décidé de contourner Cuda et de contrôler directement le GPU avec des instructions de niveau inférieur. Ils ont utilisé une méthode de programmation appelée PTX (exécution parallèle du thread), qui est beaucoup plus granulaire que CUDA. Si CUDA est un « gestionnaire » de haut niveau dans une usine, PTX est l’acte d’instructions directement chaque travailleur (noyau GPU). Bien que cette approche augmente la complexité du développement, elle permet à Deepseek de faire affiner la distribution des tâches, améliorant les performances du H800 et compensant la limitation de la bande passante.

Deepseek a démontré que même avec les limites du H800, une optimisation extrême pourrait toujours maintenir une efficacité élevée dans l’entraînement en IA. Cela signifie que l’impact de la version restreinte des GPU de Nvidia pourrait ne pas être aussi significatif que prévu initialement. Le marché a commencé à réévaluer la viabilité du développement de l’IA en Chine et s’il y aurait une dépendance future envers les puces haut de gamme de Nvidia. Cette série d’événements pourrait être l’un des facteurs contribuant à la baisse du cours de l’action de Nvidia.

Bien sûr, il existe de nombreuses raisons pour la baisse du cours des actions de NVIDIA. Outre les percées de Deepseek, le marché est également préoccupé par le fait que davantage de sociétés d’IA pourraient explorer des alternatives à l’écosystème de Nvidia, telles que les produits d’AMD, Intel et les fabricants de puces nationaux. Le succès de Deepseek n’est pas seulement une percée technique – elle pourrait également signaler un changement dans le paysage de l’industrie de l’IA.

– –

Yang Zhao est en charge de la science, de la technologie et de la couverture environnementale de CGTN. Il a également fondé Tech It Out Studio de CGTN, qui produit des documentaires scientifiques primés, y compris, et.