Liquid AI publie un modèle de 8B pour l’edge computing, avec seulement 1,5B activé lors de l’inférence
2026-06-04 11:51
Favoris

fr.wedoany.com Rapport : Issue du Massachusetts Institute of Technology, l’entreprise d’intelligence artificielle Liquid AI a récemment dévoilé un nouveau modèle, le LFM2.5-8B-A1B. Ce modèle compte 8 milliards de paramètres au total, mais n’en active que 1,5 milliard lors de chaque inférence, utilisant ainsi moins d’un cinquième de sa puissance de calcul totale. Conçu spécifiquement pour les scénarios périphériques tels que les téléphones, les PC, les robots et les serveurs légers, ce modèle ne concurrence pas les grands modèles cloud.

Ces deux dernières années, pour faire fonctionner les grands modèles sur des appareils IoT, l’industrie a généralement recours à des méthodes comme la quantification, l’élagage et la distillation, compressant ainsi les grands modèles conçus pour le cloud avant de les déployer en périphérie. Liquid AI adopte une approche technique différente, visant à modifier la « manière de s’alimenter » du modèle, afin qu’il consomme moins de ressources pour les tâches simples et n’active davantage de puissance de calcul que pour les tâches complexes. Concrètement, l’énergie consommée par chaque inférence du modèle est directement liée à la difficulté de la tâche d’entrée, grâce au mécanisme d’activation éparse du modèle de mélange d’experts (MoE) : face à une tâche d’entrée, le système n’active que les modules experts les plus pertinents, tandis que les autres restent en veille.

En périphérie, la contrainte principale de l’intelligence passe de la puissance de calcul au coût énergétique. L’énergie consommée (en joules) par une puce embarquée pour chaque inférence est limitée et fixe. Bien que la quantification, l’élagage et la distillation réduisent la taille du modèle, elles ne modifient pas le fait que chaque inférence nécessite de parcourir tous les paramètres, ce qui est difficile à maintenir sous des contraintes strictes de batterie. La voie technique de Liquid AI consiste à faire varier dynamiquement la puissance de calcul consommée en fonction de la difficulté de la tâche d’entrée, réalisant ainsi un « calcul adaptatif à l’entrée ». Cette idée s’inspire de l’étude du ver nématode *Caenorhabditis elegans*, qui ne possède que 302 neurones, mais dont l’intelligence repose sur les changements dynamiques de la force des connexions synaptiques, et non sur une accumulation de taille.

Le modèle LFM2.5 conserve des opérateurs de base efficaces tout en superposant le mécanisme d’activation éparse MoE. C’est là la logique sous-jacente de ses 8 milliards de paramètres totaux et de l’activation d’environ 1,5 milliard par inférence. La voie technique de Liquid AI a évolué des premiers réseaux dynamiques à temps continu vers l’architecture d’activation éparse actuelle, avec pour noyau commun de faire varier la quantité de calcul en fonction de l’entrée. De plus, cette école technique s’intéresse à la robustesse du modèle après déploiement. Contrairement aux modèles statiques, les réseaux neuronaux liquides modélisent via des équations à temps continu et des constantes de temps adaptatives ; leur état interne peut « s’écouler » et s’ajuster en temps réel au rythme du signal d’entrée. De multiples démonstrations du MIT Computer Science and Artificial Intelligence Laboratory (MIT CSAIL) montrent que les agents pilotés par ces réseaux peuvent naviguer de manière robuste dans des environnements inconnus et faire face aux dérives environnementales. Comparée aux méthodes qui reposent sur des mises à jour OTA pour pousser de nouveaux modèles, cette architecture intrinsèquement robuste peut se défendre contre des perturbations inconnues encore non survenues.

À l’ère de l’intelligence périphérique, la valeur industrielle se déplace des modèles et des puces vers la couche de coordination entre les deux. Le modèle LFM de Liquid AI a été optimisé pour la compatibilité matérielle dès sa conception architecturale. La société affirme qu’il peut fonctionner de manière transparente sur GPU, CPU ou NPU, couvrant des appareils hétérogènes tels que les wearables, les robots, les téléphones, les PC et les voitures. En janvier de cette année, l’entreprise a collaboré avec AMD et a réalisé en deux semaines la personnalisation et le déploiement localisés d’un modèle de 2,6 milliards de paramètres sur le processeur Ryzen AI de ce dernier. La capacité centrale derrière cette efficacité réside dans l’ingénierie permettant d’approcher rapidement la combinaison optimale d’opérateurs et l’occupation mémoire minimale sous des contraintes matérielles extrêmes.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com