Un collectif de plus de vingt chercheurs, piloté par l’association à but non lucratif EleutherAI (MIT, CMU, University of Toronto), a constitué un jeu de données de 8 To exclusivement issu de contenus sous licence ouverte ou appartenant au domaine public. À partir de ce corpus, ils ont entraîné Comma v0.1, un modèle de 7 milliards de paramètres, dont les performances sont comparables à celles de LLaMA 2‑7B de Meta, un modèle formé sur des données potentiellement protégées.
Contrairement aux gigantesques jeux de données non filtrés utilisés par les grandes entreprises d’IA, cette initiative a misé sur un protocole stringent :
Collecte uniquement sous licences libres ou domaine public ;
Annotation manuelle de chaque donnée pour valider les licences, indispensable face aux défis d’automatisation.
Le résultat ? Un modèle performant, mais dont la constitution reste coûteuse – tant en temps qu’en ressources.
TCS = trouble de la communication sociale (24/09/2014).
L’entreprise Palisade Research a publié un rapport inédit sur le potentiel des IA dans le domaine de la cybersécurité offensive. Pour la première fois, des agents autonomes basés sur des modèles d’intelligence artificielle ont été intégrés à des compétitions internationales de type Capture The Flag (CTF), dans lesquelles les participants doivent résoudre des défis de hacking concrets. Résultat, les IA ont brillé : dans certains cas, elles se sont classées dans le top 5 % des participants humains. L’étude explore l’idée que les performances réelles de l’IA ne peuvent être pleinement révélées que dans des environnements ouverts, collaboratifs et compétitifs. Ces expériences pourraient redéfinir la manière dont le potentiel de l’intelligence artificielle est évalué et audité à l’échelle mondiale.
TCS = trouble de la communication sociale (24/09/2014).