fr.wedoany.com Rapport : AMD a récemment lancé sa plateforme Ryzen AI Halo sur le marché au prix de 4 000 dollars, suscitant des discussions comparatives avec le produit DGX Spark, légèrement plus cher, de Nvidia. L'entreprise de stockage et de mémoire Longsys est allée plus loin en démontrant l'exécution locale d'un modèle d'IA de 397 milliards de paramètres sur cette plateforme. Cette démonstration utilise un processeur Ryzen AI Max+ 395 à 16 cœurs avec 128 Go de mémoire, et grâce à sa technologie SPU propriétaire et à la configuration iSA, elle compresse les données en temps réel, permettant à l'appareil de faire fonctionner un modèle nécessitant généralement 200 à 250 Go de mémoire vidéo avec seulement 128 Go de mémoire unifiée (dont 96 Go de mémoire GPU disponible).

Ce modèle serait une version personnalisée dérivée du Qwen 3.5 397B (A17B) d'Alibaba, utilisant une approche de mixture d'experts (MoE). Même avec une quantification INT4, ses besoins en mémoire dépassent largement la mémoire disponible de l'appareil de démonstration. Longsys indique que sa méthode utilise le déchargement des experts, la gestion intelligente du cache et des algorithmes de préchargement prédictif pour décharger les experts inactifs de la DRAM vers un grand tampon de stockage rapide, permettant à la puce IA de les recharger en cas de besoin. Cette approche vise à résoudre les problèmes liés au nombre élevé de paramètres des grands modèles de langage MoE, à l'expansion rapide du cache KV et à la latence des E/S. L'entreprise affirme qu'en utilisant la couche de cache pour réduire les besoins en DRAM, elle peut contenir deux fois plus de données dans des disques de stockage allant jusqu'à 128 Go. Il est à noter que Longsys n'a pas fourni de détails sur la puissance de calcul mesurée en tokens par seconde, la puce Ryzen AI étant relativement limitée à cet égard par rapport à la plupart des produits GPU IA modernes. Néanmoins, cette approche consistant à considérer le stockage comme de la mémoire montre qu'en utilisant un stockage rapide, il est possible de contourner les limitations de mémoire, permettant ainsi de faire fonctionner des modèles de pointe nécessitant du matériel IA coûteux sur un appareil de la taille d'une paume.
Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com









