
Uno studio su cinque chatbot rivela che metà delle risposte sanitarie è inaccurata o fuorviante. L’analisi evidenzia limiti strutturali dell’IA e rischi per gli utenti, soprattutto su nutrizione, integratori e domande aperte
L’intelligenza artificiale applicata alla salute promette risposte rapide e apparentemente autorevoli, ma i dati raccontano una realtà più fragile. Secondo un’analisi pubblicata su The Conversation da Carsten Eickhoff, professore di Medical Data Science all’Università di Tübingen, circa la metà delle risposte fornite dai chatbot su temi sanitari risulta problematica, anche quando appare convincente.
Il rischio maggiore resta quello dell’illusione di affidabilità: risposte ben scritte, corredate da citazioni, che trasmettono sicurezza anche quando poggiano su basi fragili o inesistenti. In ambito sanitario, questa combinazione può tradursi in scelte sbagliate, con conseguenze concrete per i pazienti.
Il riferimento è a uno studio pubblicato su BMJ Open, che ha messo alla prova cinque tra i chatbot più diffusi – ChatGPT, Gemini, Grok, Meta AI e DeepSeek – con 50 domande su cancro, vaccini, cellule staminali, nutrizione e prestazioni sportive. I risultati sono netti: quasi il 20% delle risposte è stato giudicato altamente problematico, il 50% problematico e solo una minoranza presenta criticità limitate. Ancora più significativo è il dato sulle fonti: nessun sistema è riuscito a fornire riferimenti scientifici completamente affidabili, con errori che vanno da link inesistenti fino a studi del tutto inventati.
Le prestazioni variano a seconda degli ambiti. I chatbot mostrano maggiore solidità su temi come vaccini e oncologia, dove esiste una base scientifica ampia e strutturata, ma inciampano soprattutto su nutrizione e integratori, settori già caratterizzati da informazioni contraddittorie. Le difficoltà aumentano quando le domande sono aperte – il caso più comune nell’uso quotidiano – come “quali integratori sono migliori per la salute”: qui la quota di risposte altamente problematiche sale fino a circa un terzo.
Il nodo dell’affidabilità e dell’uso reale
Come sottolinea Eickhoff, il problema non riguarda solo la qualità delle risposte, ma anche il modo in cui vengono utilizzate. Uno studio citato, pubblicato nel 2026 su Nature Medicine, mostra che i chatbot possono fornire la risposta corretta quasi nel 95% dei casi, ma quando sono gli utenti a servirsi di questi strumenti la percentuale di risposte corrette scende sotto il 35%. In altre parole, anche una risposta giusta può diventare inutile o fuorviante se non viene interpretata correttamente.
Alla base c’è il funzionamento stesso dei modelli linguistici: non “conoscono” le informazioni né valutano le prove, ma generano testi prevedendo la sequenza di parole più probabile a partire da enormi quantità di dati, che includono sia letteratura scientifica sia contenuti non verificati come blog e discussioni online. Questo li rende particolarmente abili nel produrre risposte fluide e credibili, ma non necessariamente accurate.
Altri studi citati nell’analisi rafforzano questo quadro: i modelli faticano a formulare diagnosi corrette quando dispongono di poche informazioni cliniche e possono persino riprendere e amplificare termini medici inventati inseriti nelle domande.
Strumenti utili, ma non autorità mediche
Il punto, conclude l’analisi pubblicata su The Conversation, non è demonizzare questi strumenti, ma ridimensionarne il ruolo. I chatbot possono essere utili per orientarsi tra informazioni complesse o per preparare domande da porre a un medico, ma non possono essere considerati fonti autonome e affidabili per decisioni sulla salute.
Il rischio maggiore resta quello dell’illusione di affidabilità: risposte ben scritte, corredate da citazioni, che trasmettono sicurezza anche quando poggiano su basi fragili o inesistenti. In ambito sanitario, questa combinazione può tradursi in scelte sbagliate, con conseguenze concrete per i pazienti.







