Connect with us

Nauka

ChatGPT nie zdaje polskiego egzaminu z chorób wewnętrznych

Published

on

ChatGPT nie zdaje polskiego egzaminu z chorób wewnętrznych

Nawet najbardziej wyrafinowane algorytmy i technologie nie są w stanie diagnozować i leczyć chorób bez udziału człowieka, odkryli naukowcy z Collegium Medicum UMK po tym, jak ChatGPT „nie zdał” egzaminu z chorób wewnętrznych w zaprojektowanym przez siebie badaniu.

Ogromny postęp, jaki dokonał się w ostatnich latach w dziedzinie sztucznej inteligencji, sprawia, że ​​wiele zadań dotychczas zarezerwowanych dla człowieka można obecnie realizować za pomocą modeli i algorytmów. Współczesna medycyna również zaczyna wykorzystywać możliwości AI. Trwają badania nad jego wykorzystaniem do projektowania nowych leków, wspomagania lekarzy w procesie diagnostycznym, przewidywania pandemii i zastępowania chirurgów podczas operacji. Od pewnego czasu pojawiają się doniesienia o eksperymentach, w których modele sztucznej inteligencji pomyślnie przechodzą badania lekarskie i udzielają „pacjentom” trafniejszych i bardziej empatycznych porad niż lekarze.

Jednakże, jak wynika z najnowszego badania ekspertów z Collegium Medicum im. Ludwika Rydygiera w Bydgoszczy, o czym informuje Marcin Behrendt na stronie internetowej Uniwersytetu Mikołaja Kopernika, nie nadszedł jeszcze czas, aby pełną opiekę nad człowiekiem powierzyć sztucznej inteligencji. pacjentów, zwłaszcza z zakresu chorób wewnętrznych.

„Interna jako dziedzina często nazywana jest królową nauk medycznych. Od lekarzy specjalizujących się w chorobach wewnętrznych wymagana jest szeroka wiedza, a także wysoki poziom skupienia i samodyscypliny” – stwierdzają autorzy badania opublikowanego w „Naszym Dzienniku” Polskie Archiwum Chorób Wewnętrznych (https://dx.doi. org/10.20452/pamw.16608).

„Według polskiego prawa lekarz może zostać specjalistą chorób wewnętrznych po odbyciu szkolenia specjalistycznego i zdaniu komisyjnego egzaminu certyfikacyjnego. Na ocenę składają się dwa elementy: test wielokrotnego wyboru, który obejmuje 120 pytań z 5 możliwymi odpowiedziami, z których tylko 1 jest prawidłowa, oraz test ustny, do którego można przystąpić dopiero po zdaniu egzaminu pisemnego – stwierdzają.

Po pomyślnym przejściu przez ChatGPT takich testów jak United States Medical Licensing Examination (USMLE), European Central Cardiology Examination oraz Program Oceny Wiedzy Okulistycznej (OKAP), polscy naukowcy postanowili sprawdzić, czy model ten zda polski egzamin. wymagane do uzyskania tytułu specjalisty chorób wewnętrznych. Ich badanie było pierwszym na świecie, które oceniało sztuczną inteligencję w dziedzinie chorób wewnętrznych.

READ  Sesks wygrywa w Polsce, Paddon powiększa prowadzenie w ERC – DirtFish

ChatGPT otrzymało w sumie 1191 pytań z egzaminów certyfikacyjnych polskiej komisji z lat 2013-2017. Usunięto jedynie pytania, których ChatGPT nie mógł przeanalizować, np. zawierające obrazy.

Autorzy podzielili je na różne kategorie, klasyfikując je na podstawie poziomu złożoności (jedna prawidłowa odpowiedź lub kilka), stopnia trudności i długości.

Ustalono, że odsetek poprawnych odpowiedzi uzyskanych przez ChatGPT wahał się od 47,5% do 53,33% (mediana 49,37%). Zdecydowanie więc nie wystarczyło, aby zdać egzamin. „We wszystkich sesjach ChatGPT uzyskał znacznie gorsze wyniki niż osoby badane na ludziach (których wyniki wahały się od 65,21% do 71,95%)” – odkryli naukowcy. (Minimalny wymóg to 60% poprawnych odpowiedzi).

Wyniki modelu językowego wykazały istotne różnice w zależności od długości pytania. ChatGPT radził sobie najlepiej z najkrótszymi pytaniami, następnie długimi, bardzo długimi pytaniami, a na końcu krótkimi i średnimi pytaniami. Co ciekawe, wyniki u ludzi są bardzo podobne.

Jeśli chodzi o trudność pytań, stwierdzono, że poprawność odpowiedzi ChatGPT stopniowo malała wraz ze wzrostem trudności zadania, co również było podobne do ludzkiego zachowania.

Dodatkowo badacze zweryfikowali skuteczność sztucznej inteligencji w odpowiadaniu na pytania z konkretnych dziedzin chorób wewnętrznych. Stwierdzono, że w większości poprawnie odpowiadał na pytania z zakresu alergologii (71,43%), następnie na pytania z zakresu chorób zakaźnych (55,26%), endokrynologii (54,64%), nefrologii (53,51%), reumatologii (52,83%), hematologii ( 51,51%). %), gastroenterologii (50,97%), pulmonologii (46,71%) i diabetologii (45,1%). Najniższy wynik (43,72%) uzyskała w pytaniach z zakresu kardiologii.

„W ostatnich latach sztuczna inteligencja poczyniła znaczne postępy i zyskała znaczną popularność w różnych dziedzinach. Poprzednie zastosowania sztucznej inteligencji w opiece zdrowotnej obejmowały zadania takie jak katalogowanie i interpretacja dużych zbiorów danych czy opracowywanie i wdrażanie algorytmów diagnostyczno-terapeutycznych. Wykorzystanie sztucznej inteligencji wydaje się być bardzo pomocne, biorąc pod uwagę niedofinansowanie systemów opieki zdrowotnej, problem wypalenia zawodowego wśród personelu medycznego i niedobory kadrowe” – twierdzą naukowcy.

READ  Naukowcy opracowują modele języka polskiego, możliwe polskie odpowiedniki GPT

Jak jednak podkreślają, ich badanie (a także kilka podobnych) pokazuje, że możliwości sztucznej inteligencji są w dalszym ciągu bardzo ograniczone i obecnie trudno jej konkurować z doświadczeniem wyszkolonych pracowników służby zdrowia, szczególnie w zakresie hospitalizacja. medycyna

„Jednak medycyna jest dziedziną, w której korzystne może być wykorzystanie modeli przetwarzania języka AI” – dodają.

Jako przykład podali empatyczne zachowanie ChatGPT wobec pacjentów. Niedawne badanie, w którym porównano odpowiedzi lekarzy i chatbotów na pytania medyczne zamieszczane na forach publicznych, wykazało, że 79% pacjentów uznało odpowiedzi udzielane przez sztuczną inteligencję za bardziej empatyczne i wyczerpujące niż odpowiedzi udzielane przez specjalistów.

„Bez wątpienia warto śledzić rozwój AI, zwłaszcza ChatGPT, aby móc skorzystać z jej szybkiego postępu” – piszą autorzy. Dodają, że „jest mało prawdopodobne, aby sztuczna inteligencja była w stanie w najbliższej przyszłości zastąpić pracowników służby zdrowia, szczególnie w dziedzinie chorób wewnętrznych – nawet najbardziej wyrafinowane algorytmy i technologie wspomagane przez sztuczną inteligencję nie są w stanie diagnozować i leczyć chorób bez interwencji człowieka”. .’

Naukowcy zauważyli również, że eksperyment miał kilka ograniczeń. Po pierwsze, egzamin został przeprowadzony w języku polskim, a sam ChatGPT został zaprojektowany w języku angielskim. Ponadto ChatGPT podlega regularnym aktualizacjom, a wersja wykorzystana w badaniu niekoniecznie odzwierciedla najnowszą wersję w momencie publikacji. (PAPKA)

Katarzyna Czechowicz

kap/ zan/ kap/

tr. RL

Continue Reading
Click to comment

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *