ChatGPT può aiutare a educare i pazienti sull'iperplasia prostatica benigna?

In un recente studio pubblicato su Cancro alla prostata e malattie della prostataun gruppo di ricercatori ha valutato l'accuratezza e la qualità delle risposte del trasformatore pre-addestrato Chat (ChatGPT) ai sintomi del tratto urinario inferiore maschile (LUTS) indicativi di iperplasia prostatica benigna (BPE) rispetto ai riferimenti urinari stabiliti.

Studio: ChatGPT può fornire informazioni di alta qualità al paziente sui sintomi del tratto urinario inferiore maschile che indicano iperplasia prostatica benigna? Credito immagine: Miha Creative/Shutterstock.com

sfondo

Poiché i pazienti cercano sempre più assistenza medica online, le principali società urologiche come l’Association of Urology (EAU) e l’American Urological Association (AUA) forniscono risorse di alta qualità. Tuttavia, le tecnologie moderne come l’intelligenza artificiale (AI) stanno guadagnando popolarità grazie alla loro efficienza.

Con oltre 1,5 milioni di visite mensili, ChatGPT offre un'interfaccia di chat facile da usare. Un recente sondaggio ha mostrato che il 20% degli urologi ha utilizzato ChatGPT in ambito clinico, e il 56% ne riconosce il potenziale decisionale.

Gli studi sull'accuratezza di ChatGPT in urologia mostrano risultati contrastanti. Sono necessarie ulteriori ricerche per valutare in modo completo l’efficacia e l’affidabilità degli strumenti di intelligenza artificiale come ChatGPT nel fornire informazioni mediche accurate e di alta qualità.

A proposito dello studio

Il presente studio ha esaminato i siti web di informazione dei pazienti dell'EAU e dell'AUA per identificare i temi chiave sulla BPE e ha formulato 88 domande pertinenti.

Queste domande riguardavano definizioni, sintomi, diagnosi, rischi, gestione e opzioni di trattamento. Ogni domanda è stata inviata in modo indipendente a ChatGPT e le risposte sono state registrate per il confronto con i materiali di riferimento.

Due esaminatori hanno classificato le risposte ChatGPT come vero negativo (TN), falso negativo (FN), vero positivo (TP) o falso positivo (FP). Le discrepanze sono state risolte per consenso o in consultazione con uno specialista senior.

I parametri prestazionali, inclusi punteggio F1, precisione e richiamo, sono stati calcolati per valutare l'accuratezza, utilizzando il punteggio F1 per la sua affidabilità nella valutazione dell'accuratezza del modello.

I punteggi di qualità generale (GQS) sono stati assegnati utilizzando una scala Likert a 5 punti, valutando la veridicità, l'adeguatezza, la struttura e il linguaggio delle risposte ChatGPT. I punteggi variavano da 1 (falso o fuorviante) a 5 (molto accurato e pertinente). Il GQS medio degli esaminatori è stato utilizzato come punteggio finale per ciascuna domanda.

L'accordo degli esaminatori sui punteggi GQS è stato misurato utilizzando il coefficiente di correlazione intraclasse (ICC) e le differenze sono state valutate utilizzando il test dei ranghi con segno di Wilcoxon, con un valore p inferiore a 0,05 considerato significativo. Le analisi sono state eseguite utilizzando SAS versione 9.4.

Risultati

ChatGPT ha risposto a 88 domande in otto categorie relative al BPE. In particolare, il 71,6% delle domande (63 su 88) si concentrava sulla gestione dell'BPE, compresi gli interventi chirurgici convenzionali (27 domande), i trattamenti chirurgici minimamente invasivi (MIST, 21 domande) e la terapia farmacologica (15 domande).

ChatGPT ha generato risposte a tutte le 88 domande, per un totale di 22.946 parole e 1.430 frasi. Al contrario, il sito web dell’EAU conteneva 4914 parole e 200 frasi, mentre la Guida per il paziente dell’AUA conteneva 3472 parole e 238 frasi. Le risposte generate dall’intelligenza artificiale erano circa tre volte più lunghe del materiale originale.

I parametri prestazionali per le risposte ChatGPT variavano, con punteggi F1 compresi tra 0,67 e 1,0, punteggi di precisione tra 0,5 e 1,0 e ricordo tra 0,9 e 1,0.

I punteggi GQS variavano da 3,5 a 5. Nel complesso, ChatGPT ha ottenuto un punteggio F1 di 0,79, un punteggio di precisione di 0,66 e un punteggio di ricordo di 0,97. Il punteggio GQS medio di entrambi gli esaminatori era 4, con un intervallo da 1 a 5.

Gli esaminatori non hanno riscontrato differenze statisticamente significative tra i punteggi assegnati alla qualità complessiva delle risposte, con un valore p di 0,72. Hanno identificato un buon livello di accordo tra loro, che si riflette nell’ICC di 0,86.

Conclusioni

Per riassumere, ChatGPT ha gestito tutte le 88 query, con parametri di prestazione costantemente superiori a 0,5 e un GQS complessivo di 4, indicando risposte di alta qualità. Tuttavia, le risposte di ChatGPT erano spesso molto lunghe.

L'accuratezza varia in base al soggetto, essendo superiore nei concetti di BPE ma inferiore nei trattamenti chirurgici minimamente invasivi. L'elevato livello di accordo tra gli esaminatori sulla qualità delle risposte conferma l'affidabilità del processo di valutazione.

Poiché l’intelligenza artificiale continua ad evolversi, promette di migliorare l’educazione e il supporto dei pazienti, ma sono necessari una valutazione e un miglioramento continui per massimizzare la sua utilità in contesti clinici.

Dino Gelli

“Fan della TV. Risolutore di problemi malvagi. Amante del cibo appassionato. Explorer. Specialista di Internet. Imprenditore dilettante. Fanatico dell’alcol.”

sfondo

A proposito dello studio

Risultati

Conclusioni

Related Posts

L’elevata circonferenza della vita e i livelli di lipidi predicono esiti sfavorevoli per la gotta

Rilevato un forte segnale sul pianeta “Hot Jupiter” dove piove ferro

Il riscaldamento dei contenitori degli alimenti per bambini nel microonde rilascia miliardi di nanoplastiche

Lascia un commento Annulla risposta