Lekarz AI

ChatGPT zastąpi lekarzy? Wynika badań na temat skuteczności wykorzystania ChatGPT w diagnostyce

Współczesna medycyna coraz częściej korzysta z zaawansowanych technologii wspomagających proces diagnostyczny. Jednym z najnowszych osiągnięć w tej dziedzinie są duże modele językowe sztucznej inteligencji (LLM), takie jak GPT-4, które wykazują zdolność do rozwiązywania skomplikowanych przypadków klinicznych, a także wspierania lekarzy w podejmowaniu decyzji. W artykule przedstawiamy wyniki badania dotyczącego wpływu zastosowania Chata GPT na proces diagnostyczny lekarzy w porównaniu z tradycyjnymi narzędziami diagnostycznymi.

 

Cel i metodologia badania

Celem badania było zbadanie, czy dostęp do LLM zwiększa skuteczność diagnostyczną lekarzy w porównaniu z wykorzystaniem konwencjonalnych zasobów, takich jak podręczniki medyczne, bazy danych czy wyszukiwarki internetowe. Badanie zostało przeprowadzone w formie randomizowanego, kontrolowanego badania klinicznego z udziałem 50 lekarzy reprezentujących trzy specjalizacje: medycynę rodzinną, choroby wewnętrzne oraz medycynę ratunkową. Uczestników podzielono na dwie grupy:

  • pierwsza grupa miała dostęp do GPT-4 jako narzędzia wspomagającego diagnozę,
  • druga korzystała wyłącznie z tradycyjnych źródeł wiedzy.

Każdy uczestnik miał godzinę na rozwiązanie maksymalnie sześciu klinicznych przypadków testowych. Przypadki zostały opracowane na podstawie rzeczywistych scenariuszy medycznych i nie były dostępne w publicznych bazach danych, aby zapewnić ich neutralność względem modelu GPT-4.

Wyniki badania

Ogólna skuteczność diagnostyczna

Wyniki wskazują, że skuteczność diagnostyczna w grupie korzystającej z chataGPT wyniosła 76%, podczas gdy w grupie kontrolnej było to 74%. Różnica ta wyniosła jedynie 2 punkty procentowe i nie była statystycznie istotna (p = 0,60). Tym samym dostęp do GPT-4 nie miał istotnego wpływu na poprawę wyników diagnostycznych lekarzy w badanych warunkach.

Czas poświęcony na przypadek

Lekarze korzystający z GPT-4 potrzebowali średnio 519 sekund na przypadek (mediana), podczas gdy grupa kontrolna poświęcała średnio 565 sekund. Różnica na korzyść grupy z korzystającej z czata GPT, również nie osiągnęła poziomu istotności statystycznej (p = 0,20).

Porównanie z wynikami samego GPT-4

Interesujące jest, że GPT-4, działając autonomicznie, uzyskał wynik na poziomie 92% skuteczności diagnostycznej. Było to znacznie więcej niż w przypadku obu grup lekarzy, a różnica wynosząca 16 punktów procentowych na korzyść LLM była istotna statystycznie (p = 0,03).

Omówienie wyników

Brak znaczącego wpływu na lekarzy

Wyniki sugerują, że sam dostęp do dużego modelu językowego sztucznej inteligencji, bez odpowiedniego szkolenia z zakresu jego użytkowania, nie poprawia istotnie jakości diagnoz lekarzy. Może to wynikać z braku umiejętności efektywnego formułowania zapytań (prompt engineering), co jest kluczowe dla uzyskania wysokiej jakości odpowiedzi od modeli językowych.

Potencjał autonomicznych systemów diagnostycznych

Znacznie lepsza skuteczność samego GPT-4 w porównaniu z lekarzami wskazuje na potencjał, jaki niesie autonomiczne wykorzystanie dużych modeli językowych. Jednak w obecnym stanie technologia ta powinna być używana jedynie jako narzędzie wspomagające, a nie zastępujące lekarzy.

Różnorodność przypadków i specyfika danych

Przypadki testowe były starannie dobrane, aby obejmować szeroki zakres sytuacji klinicznych. Jednakże, jak podkreślają autorzy badania, wyniki te nie mogą być w pełni uogólnione na codzienną praktykę lekarską, która wymaga nie tylko analizy danych, ale także interakcji z pacjentami i uwzględnienia kontekstu klinicznego.

Wnioski i implikacje praktyczne

  1. Brak natychmiastowych korzyści z integracji czatów AI – Włączenie modeli językowych do procesu diagnostycznego nie przynosi automatycznie znaczących korzyści w zakresie poprawy jakości diagnoz, jeśli lekarze nie są odpowiednio przeszkoleni w ich użytkowaniu.
  2. Konieczność szkoleń z zakresu prompt engineering – Jednym z kluczowych obszarów rozwoju jest nauka lekarzy skutecznego formułowania zapytań do modeli językowych, co może znacznie poprawić ich wyniki.
  3. Rozwój i integracja systemów hybrydowych – Istnieje potencjał do opracowania systemów, które łączą autonomiczne możliwości językowych modeli typu chatGPT z interwencją ludzką, co może prowadzić do synergii w procesie diagnostycznym.
  4. Perspektywa dalszych badań – Badania na większych grupach lekarzy, obejmujące różne specjalizacje i bardziej zróżnicowane scenariusze kliniczne, są niezbędne, aby dokładniej ocenić wartość LLM w praktyce medycznej.

Podsumowując, badanie wskazuje na istotne wyzwania i możliwości związane z integracją dużych modeli językowych w diagnostyce medycznej. Choć ich autonomiczna skuteczność jest imponująca, aby technologia ta mogła w pełni wspierać lekarzy, konieczne są inwestycje w szkolenia, rozwój narzędzi wspomagających oraz dalsze badania kliniczne.

 

Link do badań: https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395

Post Author: Zdrowiejemy.com.pl