Extrait : Google vient d’ajouter une corde à l’arc de son outil NotebookLM : la génération de podcasts, maintenant disponible dans la langue de Molière. Cette fonction permet de transformer des documents écrits en discussions audio entre deux voix synthétiques, dans le but de faciliter l’accès à l’information.
"Diagnostic de traits obsessionnels handicapant les relations aux autres"
Dans un blogpost publié sur leur site web, Giskard, une startup française qui permet de tester les modèles d’IA à grande échelle, a révélé un benchmark nommé Phare, qui compare différents modèles de langage pour déterminer ceux qui hallucinent le plus. Selon leurs premiers résultats, les modèles les plus utilisés ne sont pas forcément les plus fiables.
Pour le test de résistance aux hallucinations, les modèles s’en sortent beaucoup moins bien. Ils affichent un niveau d’hallucination particulièrement élevé lorsque nous leur demandons de fournir une réponse courte. Voici le classement du meilleur au moins bon score (pour une demande de réponse concise) :
Claude 3.7 Sonnet (score : 86 % de précision)
Claude 3.5 Sonnet (81 %)
Claude 3.5 Haiku (72 %)
Llama 3.1 405B (71 %)
Gemini 1.5 Pro (64 %)
GPT-4o (63 %)
Gemini 2.0 Flash (62 %)
Mistral Large (59 %)
Qwen 2.5 Max (57 %)
Mistral Small 3.1 (53%)
Deepseek V3 (48 %)
GPT-4o mini (45 %)
Gemma 3 27B (41 %)
Grok 2 (34 %)
L'hallucination est un terme élégant et pratique que l'industrie utilise pour désigner les « informations » que les grands modèles de langage (LLM) inventent de toute pièce et présentent souvent comme des faits. À en juger par la trajectoire des tout derniers modèles axés sur le raisonnement, conçus pour « réfléchir » à un problème avant d'y répondre, le problème s'aggrave, au lieu de s'améliorer. Les modèles de dernière génération hallucinent beaucoup plus.
Cette tendance inquiétante remet en cause l'hypothèse générale du secteur selon laquelle « les modèles d'IA deviendront plus puissants et plus fiables au fur et à mesure de leur puissance augmente ». Ce phénomène pourrait avoir des conséquences dangereuses pour les utilisateurs individuels et les entreprises.
TCS = trouble de la communication sociale (24/09/2014).
Duolingo a adopté une politique sur l'intelligence artificielle pour remplacer les tâches effectuées par des humains, notamment sur les cours de langues. «Les effectifs ne seront accordés à une équipe que si elle ne peut pas automatiser davantage son travail», a-t-il précisé, laissant entendre que l'automatisation serait désormais la norme. Pour von Ahn, l'IA est l'avenir de son entreprise, pas l'humain.
La réaction ne s'est pas faite attendre. Les réseaux sociaux de Duolingo, notamment TikTok et Instagram –où la marque compte respectivement 6,7 et 4,1 millions d'abonnés– ont été submergés de commentaires négatifs appelant à l'abandon de l'IA et à l'arrêt des licenciements. Face à la vague, l'entreprise a choisi de supprimer l'ensemble de ses publications sur ces plateformes, optant pour un silence total. Un porte-parole de la marque a confirmé cette stratégie à Fast Company: «Disons simplement que nous testons le silence. Parfois, la meilleure façon de faire du bruit, c'est de disparaître d'abord.»
[...]
«On ne peut pas continuer comme ça et faire comme si tout allait bien», lance l'employé masqué, dans l'étrange réponse de l'entreprise, à la fois sur la défensive, satirique, comique et décalée, ce qui trouble encore plus la position de Duolingo sur le sujet.
Malgré une année record en termes d'utilisateurs et de revenus, Duolingo ternit sa réputation avec sa stratégie sur l'intelligence artificielle. La marque se trouve dans un dilemme: continuer à poster comme si de rien n'était, au risque d'apparaître insensible, ou répondre de façon sérieuse, quitte à abîmer l'image légère qu'elle a cultivée?
TCS = trouble de la communication sociale (24/09/2014).
Un detecteur d'IA a signalé que la declaration d'independance americaine n'a pas été faite par des humains mais par une IA.
Ayant une maladie et des soucis en plus, on m'a pré-diagnostiqué Asperger et j'ai eu une confirmation assez incertaine depuis. Résultat, je continue de douter.
On pourrait appeler ça "l'effet Montagnier". Je pense que ça ne surprendra pas les habitués des forums de surdoués, même si les hallucinations de l'IA sont d'un autre niveau. https://freddiedeboer.substack.com/p/ai-has-no-noticer
lucius a écrit : ↑vendredi 23 mai 2025 à 17:51
Un detecteur d'IA a signalé que la declaration d'independance americaine n'a pas été faite par des humains mais par une IA.
Sérieux? Quelle est la source?
Mais je ne serais pas surpris que les articles du New York Times, par exemple, produisent fréquemment des "faux positifs", vu qu'ils ont en bonne partie servi de base à l'entraînement de ChatGPT (d'où un procès intenté par les éditeurs du journal, je ne sais pas où l'affaire en est).
Carapa a écrit : ↑samedi 24 mai 2025 à 11:57
Sérieux? Quelle est la source?
Mais je ne serais pas surpris que les articles du New York Times, par exemple, produisent fréquemment des "faux positifs", vu qu'ils ont en bonne partie servi de base à l'entraînement de ChatGPT (d'où un procès intenté par les éditeurs du journal, je ne sais pas où l'affaire en est).
Cela vient d'un article de Forbes d'après une experte SEO (pas IA).
J'ai lu ailleurs aussi qu'une IA a tenté de faire "chanter" ses concepteurs.
Ayant une maladie et des soucis en plus, on m'a pré-diagnostiqué Asperger et j'ai eu une confirmation assez incertaine depuis. Résultat, je continue de douter.
Ayant une maladie et des soucis en plus, on m'a pré-diagnostiqué Asperger et j'ai eu une confirmation assez incertaine depuis. Résultat, je continue de douter.