Współczesna medycyna coraz częściej korzysta z zaawansowanych technologii wspomagających proces diagnostyczny. Jednym z najnowszych osiągnięć w tej dziedzinie są duże modele językowe sztucznej inteligencji (LLM), takie jak GPT-4, które wykazują zdolność do rozwiązywania skomplikowanych przypadków klinicznych, a także wspierania lekarzy w podejmowaniu decyzji. W artykule przedstawiamy wyniki badania dotyczącego wpływu zastosowania Chata GPT na proces diagnostyczny lekarzy w porównaniu z tradycyjnymi narzędziami diagnostycznymi.
Cel i metodologia badania
Celem badania było zbadanie, czy dostęp do LLM zwiększa skuteczność diagnostyczną lekarzy w porównaniu z wykorzystaniem konwencjonalnych zasobów, takich jak podręczniki medyczne, bazy danych czy wyszukiwarki internetowe. Badanie zostało przeprowadzone w formie randomizowanego, kontrolowanego badania klinicznego z udziałem 50 lekarzy reprezentujących trzy specjalizacje: medycynę rodzinną, choroby wewnętrzne oraz medycynę ratunkową. Uczestników podzielono na dwie grupy:
- pierwsza grupa miała dostęp do GPT-4 jako narzędzia wspomagającego diagnozę,
- druga korzystała wyłącznie z tradycyjnych źródeł wiedzy.
Każdy uczestnik miał godzinę na rozwiązanie maksymalnie sześciu klinicznych przypadków testowych. Przypadki zostały opracowane na podstawie rzeczywistych scenariuszy medycznych i nie były dostępne w publicznych bazach danych, aby zapewnić ich neutralność względem modelu GPT-4.
Wyniki badania
Ogólna skuteczność diagnostyczna
Wyniki wskazują, że skuteczność diagnostyczna w grupie korzystającej z chataGPT wyniosła 76%, podczas gdy w grupie kontrolnej było to 74%. Różnica ta wyniosła jedynie 2 punkty procentowe i nie była statystycznie istotna (p = 0,60). Tym samym dostęp do GPT-4 nie miał istotnego wpływu na poprawę wyników diagnostycznych lekarzy w badanych warunkach.
Czas poświęcony na przypadek
Lekarze korzystający z GPT-4 potrzebowali średnio 519 sekund na przypadek (mediana), podczas gdy grupa kontrolna poświęcała średnio 565 sekund. Różnica na korzyść grupy z korzystającej z czata GPT, również nie osiągnęła poziomu istotności statystycznej (p = 0,20).
Porównanie z wynikami samego GPT-4
Interesujące jest, że GPT-4, działając autonomicznie, uzyskał wynik na poziomie 92% skuteczności diagnostycznej. Było to znacznie więcej niż w przypadku obu grup lekarzy, a różnica wynosząca 16 punktów procentowych na korzyść LLM była istotna statystycznie (p = 0,03).
Omówienie wyników
Brak znaczącego wpływu na lekarzy
Wyniki sugerują, że sam dostęp do dużego modelu językowego sztucznej inteligencji, bez odpowiedniego szkolenia z zakresu jego użytkowania, nie poprawia istotnie jakości diagnoz lekarzy. Może to wynikać z braku umiejętności efektywnego formułowania zapytań (prompt engineering), co jest kluczowe dla uzyskania wysokiej jakości odpowiedzi od modeli językowych.
Potencjał autonomicznych systemów diagnostycznych
Znacznie lepsza skuteczność samego GPT-4 w porównaniu z lekarzami wskazuje na potencjał, jaki niesie autonomiczne wykorzystanie dużych modeli językowych. Jednak w obecnym stanie technologia ta powinna być używana jedynie jako narzędzie wspomagające, a nie zastępujące lekarzy.
Różnorodność przypadków i specyfika danych
Przypadki testowe były starannie dobrane, aby obejmować szeroki zakres sytuacji klinicznych. Jednakże, jak podkreślają autorzy badania, wyniki te nie mogą być w pełni uogólnione na codzienną praktykę lekarską, która wymaga nie tylko analizy danych, ale także interakcji z pacjentami i uwzględnienia kontekstu klinicznego.
Wnioski i implikacje praktyczne
- Brak natychmiastowych korzyści z integracji czatów AI – Włączenie modeli językowych do procesu diagnostycznego nie przynosi automatycznie znaczących korzyści w zakresie poprawy jakości diagnoz, jeśli lekarze nie są odpowiednio przeszkoleni w ich użytkowaniu.
- Konieczność szkoleń z zakresu prompt engineering – Jednym z kluczowych obszarów rozwoju jest nauka lekarzy skutecznego formułowania zapytań do modeli językowych, co może znacznie poprawić ich wyniki.
- Rozwój i integracja systemów hybrydowych – Istnieje potencjał do opracowania systemów, które łączą autonomiczne możliwości językowych modeli typu chatGPT z interwencją ludzką, co może prowadzić do synergii w procesie diagnostycznym.
- Perspektywa dalszych badań – Badania na większych grupach lekarzy, obejmujące różne specjalizacje i bardziej zróżnicowane scenariusze kliniczne, są niezbędne, aby dokładniej ocenić wartość LLM w praktyce medycznej.
Podsumowując, badanie wskazuje na istotne wyzwania i możliwości związane z integracją dużych modeli językowych w diagnostyce medycznej. Choć ich autonomiczna skuteczność jest imponująca, aby technologia ta mogła w pełni wspierać lekarzy, konieczne są inwestycje w szkolenia, rozwój narzędzi wspomagających oraz dalsze badania kliniczne.
Link do badań: https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395
Serwis ma charakter edukacyjny, nie stanowi i nie zastępuje porady lekarskiej, a treść artykułów nie stanowi fachowej porady medycznej. Redakcja nie ponosi odpowiedzialności za zastosowania informacji zamieszczonych na stronach serwisu.