Sebbene i progressi dei sistemi di deep learning per la diagnosi medica basata su immagini dimostrino il loro potenziale per aumentare il processo decisionale clinico, l’efficacia delle partnership medico-macchina rimane una questione aperta, in parte perché sia i medici che gli algoritmi sono suscettibili di errori sistematici, soprattutto per la diagnosi di popolazioni sottorappresentate.
Un nuovo studio dei ricercatori del MIT, pubblicato su Nature Medicine, presenta risultati di un esperimento digitale su larga scala che ha coinvolto dermatologi certificati (n = 389) e medici di base (n = 459) di 39 Paesi per valutare l’accuratezza delle diagnosi presentate dai medici in una simulazione di teledermatologia store-and-forward. In questo esperimento, ai medici sono state presentate 364 immagini relative a 46 malattie della pelle di diverse tonalità e gli è stato chiesto di inviare fino a quattro diagnosi differenziali.
La maggior parte di queste immagini raffigurava una delle otto malattie infiammatorie della pelle, tra cui la dermatite atopica, la malattia di Lyme e la sifilide secondaria, oltre a una rara forma di cancro chiamata linfoma cutaneo a cellule T (CTCL), che può apparire simile a una condizione infiammatoria della pelle. Molte di queste malattie, compresa la malattia di Lyme, possono presentarsi in modo diverso sulla pelle scura e su quella chiara.
A ciascuno dei partecipanti allo studio sono state mostrate 10 immagini e gli è stato chiesto di fare le prime tre previsioni sulla malattia che ciascuna immagine poteva rappresentare. È stato anche chiesto loro se avrebbero sottoposto il paziente a una biopsia. Inoltre, ai medici generici è stato chiesto se avrebbero indirizzato il paziente a un dermatologo.
Foto di Gerd Altmann, Pixabay
Gli specialisti e i medici generici hanno ottenuto un’accuratezza diagnostica rispettivamente del 38% e del 19%, ma sia gli entrambi hanno ottenuto un’accuratezza inferiore di quattro punti percentuali nella diagnosi di immagini di pelle scura rispetto a quelle di pelle chiara.
Dopo aver valutato le prestazioni dei medici da soli, i ricercatori hanno fornito loro ulteriori immagini da analizzare con l’assistenza di un algoritmo di intelligenza artificiale da loro sviluppato.
Il supporto decisionale del sistema di deep learning ha migliorato di oltre il 33% l’accuratezza diagnostica sia degli specialisti che dei generici, ma ha esacerbato il divario nell’accuratezza diagnostica dei generici tra le varie tonalità di pelle. Infatti, mentre i dermatologi che hanno utilizzato l’assistenza dell’IA hanno mostrato aumenti simili nell’accuratezza quando hanno esaminato immagini di pelle chiara o scura, i medici generici hanno mostrato miglioramenti maggiori sulle immagini di pelle più chiara rispetto a quelle di pelle più scura.
Questi risultati dimostrano che le collaborazioni medico-macchina ben progettate possono migliorare l’accuratezza diagnostica dei medici, illustrando che il successo nel migliorare l’accuratezza diagnostica complessiva non riguarda necessariamente i pregiudizi.