Sempre più persone si affidano all’intelligenza artificiale (IA) per le diagnosi mediche, poiché questi strumenti possono individuare rapidamente anomalie e segnali di avvertimento nei dati clinici, come radiografie e cartelle cliniche, prima che diventino evidenti all’occhio umano. Tuttavia, un recente studio pubblicato sul BMJ il 20 dicembre 2024 solleva dubbi sull’affidabilità delle tecnologie di IA, come i grandi modelli linguistici (LLM) e i chatbot, che sembrano mostrare segni di deterioramento cognitivo nel tempo. “Questi risultati mettono in discussione l’idea che l’IA possa presto sostituire i medici – affermano gli autori – poiché il deterioramento cognitivo nei principali chatbot potrebbe minare la loro affidabilità nelle diagnosi mediche e la fiducia dei pazienti”. Gli scienziati hanno testato chatbot basati su LLM disponibili pubblicamente, tra cui ChatGPT di OpenAI, Sonnet di Anthropic e Gemini di Alphabet, utilizzando il Montreal Cognitive Assessment (MoCA), una serie di compiti usati dai neurologi per valutare attenzione, memoria, linguaggio, abilità spaziali e funzioni esecutive. Il MoCA è comunemente impiegato per rilevare il deterioramento cognitivo in condizioni come l’Alzheimer o la demenza. I partecipanti devono eseguire compiti come disegnare un orario su un orologio, sottrarre sette da 100 ripetutamente, e ricordare parole da un elenco. Negli esseri umani, un punteggio di 26 su 30 indica assenza di deterioramento cognitivo. Sebbene alcuni aspetti dei test, come la denominazione e il linguaggio, risultassero semplici per la maggior parte degli LLM, tutti hanno avuto difficoltà con le abilità visive/spaziali e i compiti esecutivi, mostrando debolezze, in particolare nel ricordo ritardato. Significativamente, mentre l’ultima versione di ChatGPT (versione 4) ha ottenuto il punteggio più alto (26 su 30), la vecchia versione di Gemini 1.0 LLM ha ottenuto solo 16 punti, suggerendo che i vecchi LLM mostrano segni di declino cognitivo.
