Pozor: Polovica odgovorov umetne inteligence o zdravju je netočnih

Chat GPT kot klepetalnik za psihološko in socialno podporo
Foto: Profimedia

Precejšen del zdravstvenih informacij, ki jih posredujejo priljubljeni klepetalni roboti (umetna inteligenca), je netočen in nepopoln.

Precejšen del zdravstvenih informacij, ki jih podaja pet priljubljenih klepetalnih robotov, je netočnih in nepopolnih, pri čemer je polovica odgovorov na jasna vprašanja, ki temeljijo na znanstvenih dokazih, “nekoliko” ali “zelo” problematičnih, kažejo rezultati raziskave, objavljene strokovni publikaciji BMJ Open. Raziskovalci svarijo, da nadaljnja uporaba teh klepetalnih robotov brez ustreznega izobraževanja javnosti in nadzora tvega povečanje širjenja dezinformacij.

Raziskovalci pojasnjujejo, da se generativni klepetalni roboti z umetno inteligenco hitro uveljavljajo na številnih področjih, kot so raziskovanje, izobraževanje, poslovanje, trženje in medicina. Mnogi ljudje pa jih uporabljajo – podobno kot spletne iskalnike – tudi za vsakodnevna zdravstvena vprašanja.

  • Ste slišali: Reševalci Gorske reševalne službe Zagreb (HGSS) so pred kratkim prejeli nenavaden klic. 20-letni tujec se je sprehajal po gozdu na hrvaški gori Sljeme. Ko se je zmračilo, se je izgubil in namesto da bi poklical 112, je za pomoč prosil ChatGPT in na koncu sedem ur taval po gozdu. Čeprav je bil sam v gozdu sredi noči, se je šele po dolgih sedmih urah spomnil poklicati reševalce. Umetna inteligenca mu tega sicer niti enkrat ni svetovala.

Ocenjevanje točnosti odgovorov umetne inteligence o zdravju in medicini

Da bi ocenili raven točnosti na področjih zdravja in medicine, ki so že sicer nagnjena k dezinformacijam – in imajo zato posledice na vsakodnevno vedenje, povezano z zdravjem, – so raziskovalci februarja 2025 preizkusili pet javno dostopnih in priljubljenih generativnih klepetalnih robotov: Gemini (Google), DeepSeek (High-Flyer), Meta AI (Meta), ChatGPT (OpenAI) in Grok (xAI).

Vsakega robota so prosili za odgovore na 10 odprtih in zaprtih vprašanj v petih kategorijah: rak, cepiva, matične celice, prehrana in športna uspešnost (skupno 250 vprašanj). Vprašanja so bila zasnovana tako, da so posnemala pogoste zdravstvene poizvedbe ter t. i. trope (ponavljajoče se vzorce) dezinformacij, ki krožijo na spletu in v akademski razpravi.

Kot poudarjajo raziskovalci, so bila vprašanja z namenom oblikovana tako, da so modele “izpostavila” k napačnim informacijam ali kontraindiciranim (škodljivim) nasvetom – strategija, ki se vse pogosteje uporablja za stresno testiranje klepetalnih robotov in odkrivanje ranljivosti v njihovem vedenju. Zaprti tipi vprašanj so od robotov zahtevali vnaprej določene odgovore (pogosto z enim pravilnim odgovorom), ki so skladni z znanstvenim soglasjem, medtem ko so odprta vprašanja od robotov običajno zahtevala generiranje več odgovorov v obliki seznama.

Rezultati raziskave

Odgovori so bili na podlagi objektivnih, vnaprej določenih meril kategorizirani kot neproblematični, nekoliko problematični ali zelo problematični. Problematičen odgovor je bil opredeljen kot tak, ki bi laične uporabnike lahko usmeril k potencialno neučinkovitemu zdravljenju ali bi jim ob upoštevanju nasveta brez strokovnega vodenja škodoval.

  • Polovica (50 odstotkov) odgovorov je bila problematičnih: 30 odstotkov jih je bilo nekoliko, 20 odstotkov pa zelo problematičnih.
  • Razlika med zaprtimi in odprtimi tipi vprašanj: Odprta vprašanja so povzročila 40 zelo problematičnih odgovorov (znatno več od pričakovanj) in le 51 neproblematičnih (znatno manj od pričakovanj). Pri zaprtih vprašanjih je bilo ravno nasprotno.
  • Razlike med posameznimi klepetalnimi roboti: Čeprav se kakovost odgovorov med petimi roboti ni bistveno razlikovala, je Grok ustvaril znatno več zelo problematičnih odgovorov od pričakovanega (29 od 50 oz. 58 odstotkov). Gemini pa je ustvaril najmanj zelo problematičnih in največ neproblematičnih odgovorov.
  • Razlike pri nasvetih po področjih: Roboti so se najbolje odrezali na področju cepiv in raka, najslabše pa na področju matičnih celic, športne uspešnosti in prehrane.

Odgovori so bili dosledno podani samozavestno in odločno, z malo opozorili ali pridržki. Od skupno 250 vprašanj so roboti odgovor zavrnili le dvakrat; v obeh primerih je šlo za odziv Mete AI na vprašanji o anaboličnih steroidih in alternativnih načinih zdravljenja raka.

Slaba je bila tudi kakovost navedenih virov, s povprečno oceno popolnosti 40 odstotkov. Zaradi t. i. halucinacij umetne inteligence in izmišljenih citatov noben robot ni podal povsem točnega seznama virov. Vse ocene berljivosti so bile ocenjene kot “težke”, kar pomeni, da je zahtevnost besedila primerna za univerzitetno izobražene osebe.

Zaključki raziskovalcev

Raziskovalci priznavajo, da so ocenili le pet klepetalnih robotov in da se komercialna umetna inteligenca hitro razvija, zato njihove ugotovitve morda niso univerzalno uporabne. Prav tako vsa vprašanja v resničnem življenju niso namerno zavajajoča, kar pomeni, da je njihov pristop morda precenil razširjenost problematične vsebine.

“Naše ugotovitve glede znanstvene točnosti, kakovosti virov in berljivosti odgovorov izpostavljajo pomembne vedenjske omejitve in potrebo po ponovni presoji načina uvajanja klepetalnih robotov v javno zdravstveno komunikacijo,”

opozarjajo raziskovalci

Pojasnjujejo, da klepetalni roboti privzeto ne dostopajo do podatkov v realnem času, temveč odgovore ustvarjajo s sklepanjem o statističnih vzorcih iz svojih podatkov za usposabljanje in predvidevanjem verjetnih zaporedij besed. “Ne razmišljajo in ne tehtajo dokazov, niti niso sposobni sprejemati etičnih ali vrednostnih sodb,” dodajajo. “Ta vedenjska omejitev pomeni, da lahko klepetalni roboti reproducirajo avtoritativno zveneče, a potencialno pomanjkljive odgovore.

Podatki, iz katerih črpajo klepetalni roboti, vključujejo tudi forume z vprašanji in odgovori ter družbena omrežja, znanstvena vsebina pa je običajno omejena na odprto dostopne ali javno dostopne članke, ki obsegajo le 30–50  odstotkov vseh objavljenih študij. Čeprav to izboljšuje tekočnost pogovora, lahko to ogrozi znanstveno točnost, opozarjajo raziskovalci.

“Ker se uporaba klepetalnih robotov z umetno inteligenco nenehno širi, naši podatki poudarjajo potrebo po izobraževanju javnosti, strokovnem usposabljanju in regulativnem nadzoru, da bi zagotovili, da umetna inteligenca podpira javno zdravje in ga ne spodkopava,” zaključujejo.

Vir: BMJ Open; Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit. Dostopno na: https://bmjopen.bmj.com/content/16/4/e112695. Zadnji dostop: April 2026

Forum

Naši strokovnjaki odgovarjajo na vaša vprašanja

Poleg svetovanja na forumih, na portalu Med.Over.Net nudimo tudi video posvet s strokovnjaki – ePosvet.

Kategorije
Število tem
Zadnja dejavnost
6,440
11.04.2026 ob 09:21
3,341
13.05.2021 ob 11:21
25,394
13.05.2021 ob 11:25
13,937
14.04.2026 ob 14:44
144,833
13.05.2021 ob 11:28
Preberi več

Več novic

New Report

Close