Techonologie

GenAI : Apple surfe sur la vague open source avec un LLM à près de 7 milliards de paramètres

Avec pour objectif de démontrer l’importance des jeux de données et du travail de curation de ces dernières, Apple pousse une famille de LLM relativement compacts et totalement open source. Son modèle de fondation à 6,9 milliards de paramètres est notamment compétitif face à Mistral 7B et Llama 3.

La firme de Cupertino poursuit sur sa lancée dans le développement de petits modèles de langage et publie sur Hugging Face une famille de modèles appelée DataComp for Language Models (DCLM) allant de 412 millions à 6,9 milliards de paramètres. « À notre connaissance, ce sont de loin les modèles véritablement open source les plus performants », vante Vaishaal Shankar, l’un des chercheurs en machine learning d’Apple ayant participé au développement. Par « véritablement open source », ce dernier entend des données, des poids de modèles ainsi que le code d’entraînement ouverts.

Le modèle de fondation de 6,9 milliards de paramètres est compétitif face à des modèles comme Mistral 7B de Mistral AI, Llama 3 de Meta, Gemma de Google et Qwen 2 d’Alibaba Cloud sur la plupart des benchmarks, assure le chercheur. Entraîné sur l’ensemble de données DCLM-Baseline, ce modèle est conçu « pour démontrer l’efficacité des techniques de conservation systématique des données pour améliorer les performances du modèle de langage », peut-on lire sur la page Hugging Face dédiée au modèle.

Le plus performant des modèles 7B ?

Entraîné sur 2,5 mille milliards de tokens de jeux de données ouverts – principalement des données en anglais –, DCLM-7B est doté d’une fenêtre contextuelle de 2048 tokens. Sans surprise, Apple a fait appel à des GPU H100 pour faire tourner son modèle. « Nos résultats soulignent l’importance de la conception des ensembles de données pour la formation des modèles linguistiques et offrent un point de départ pour de nouvelles recherches sur la conservation des données », notent les chercheurs.

Concernant ses performances, le modèle obtient un meilleur score sur différents tests par rapport à ses concurrents « totalement open source », à savoir Falcon, OLMo-1.7 et MAP-Neo. Comparé à MAP-Neo, considéré comme le plus performant à date en matière de modèles de langage à données ouvertes, DCLM-Baseline représente une amélioration de 6,6% sur le benchmark MMLU tout en étant entraîné avec 40% de calcul en moins. « Notre modèle de base est également comparable à Mistral-7B-v0.3 et Llama 3 8B sur MMLU (qui obtiennent respectivement 63% et 66%), et réalise des performances similaires sur une moyenne de 53 tâches de compréhension du langage naturel tout en étant entraîné avec 6,6 fois moins de calcul que Llama 3 8B », indiquent les chercheurs.

En parallèle de la version à 7 milliards de paramètres, les équipes d’Apple lancent une version comportant 1,4 milliard de paramètres « performante qui surpasse considérablement les modèles SmolLM existants (développés par Hugging Face, ndlr) récemment publiés » sur les tests MMLU, Core et Extended. Cette version a été entraînée conjointement avec le Toyota Research Institute sur 2,6 mille milliards de jetons. Enfin, une variante optimisée par les instructions de ces modèles est également publiée, précise Vaishaal Shankar.

Les biais restent présents

Les chercheurs rappellent qu’il s’agit de recherches préliminaires et que le modèle n’est pas dénué de biais. « Bien que le modèle DCLM-Baseline-7B fasse preuve d’excellentes performances pour toute une série de tâches, il est important de noter que le modèle peut présenter des biais présents dans les données de StarCoder et de ProofPile2 », affirment les équipes à l’origine du modèle.

Ce dernier pourrait donc présenter des biais dans ses données d’apprentissage, qui sont dérivées de données d’exploration de sites Web. De même, les performances sur des tâches non incluses dans la suite d’évaluation peuvent varier. Enfin, ses connaissances sont limitées à la date de clôture des données d’apprentissage.

Source : usine-digitale.fr