Ha gyors diagnózist akart az ember, amikor hirtelen mondjuk kiütések borították el a testét, de nem érte el a háziorvost, és rendelőben sem fogadták, akkor „ráguglizott” a dologra, és általában a Google segítségével megpróbált információt szerezni. A világ azonban gyorsan változik, és ez a módszer is elavulóban van, jön az új csillag, a mindentudó AI, a mesterséges intelligencia.
Orvosok és egészségügyi szakértők eleinte csak aggódva figyelték a jelenséget, majd riasztották a közvéleményt, mert azt tapasztalták, hogy egyre több ember használja a mesterséges intelligenciát betegségek diagnosztizálására. „Bár a ChatGPT-hez hasonló nagy méretű nyelvi modellekkel rendelkező chatbotok képesek megoldani az orvosi vizsgálatok során felmerülő feladatokat, és olyan eredményeket elérni, amelyek lehetővé tennék, hogy az emberek szinte orvosokká váljanak, még mindig vannak jelentős hiányosságaik” – magyarázzák a szakértők.
Pranav Rajpurkar, a Harvard Egyetem munkatársa, egy kutatócsoporttal együtt fejlesztette ki a CRAFT-MD rendszert, a mesterséges intelligencia klinikai érvelési képességének értékelésére – ehhez egy beteg és egy orvos közötti szimulált beszélgetéseket használ. Ugyanis az AI chatbotok jelentős nehézségekkel szembesülnek a szimulált beteginterjúk során, ami pedig az egészségügyi diagnosztika kulcsfontosságú része.
„Orvos-tudósként érdekelnek az olyan mesterségesintelligencia-modellek, amelyek hatékonyan és etikusan bővíthetik a klinikai gyakorlatot” – jelentette ki Roxana Daneshjou, a tanulmány társszerzője, a Stanford Egyetem orvosbiológiai adattudományának és bőrgyógyászatának adjunktusa. „A CRAFT-MD olyan keretrendszert hoz létre, amely jobban tükrözi a valós interakciókat, és így segíti előremozdítani az egészségügyben az AI-modell teljesítményének tesztelését.”
Mégis, mennyire jók az AI „klinikusai”?
A mesterséges intelligencia valós teljesítményének optimalizálásához a kutatók egyre alkalmasabb teszteket terveznek az AI klinikai kommunikációs készségeinek értékelésére.
A rendszer mintegy 2000 különböző valós orvosi esetre épül, és ezek elemzése során a kutatók igen érdekes eredményre jutottak. A kísérletek azt mutatták, hogy az MI-modellek – köztük az OpenAI GPT-3.5 és GPT- 4 modelljei, a Meta Llama-2-7b és a Mistral-v2-7b – jelentősen rosszabbul teljesítettek a beszélgetésen alapuló teszteken, mint az írásos összefoglalók alapján történő diagnózisoknál. Ez azt jelenti, hogy a mesterséges intelligencia sokkal jobb eredményeket ér el a diagnózis felállításában, ha az összes tünet fel van sorolva, mint amikor magának kell információt szereznie róluk egy-egy beszélgetés alapján.
A dr. Google pozíciója megrendült ugyan, de még nincs akkora veszélyben, mint elsőre gondolta volna az ember. Azonban kétségtelen, hogy rövid idő alatt a szóbeli teszteket is kiválóan oldják majd meg a nyelvi modellt alkalmazó chatbotok.
A cikk az Európai Unió finanszírozásával készült. Az itt szereplő vélemények és állítások a szerző(k) álláspontját tükrözik, és nem feltétlenül egyeznek meg az Európai Unió vagy az Európai Oktatási és Kulturális Végrehajtó Ügynökség (EACEA) hivatalos álláspontjával. Sem az Európai Unió, sem az EACEA nem vonható felelősségre miattuk. Mi nem részesültünk a támogatásból, csak felületet biztosítunk a cikknek.
Szerző: Kondor Róza
Vezető kép: Adobe stock