ChatGPT zbunio univerzitetske profesore: Čak 94 posto ispita je riješio bolje od stvarnih studenata

Fakultetski ispiti suočeni su s novim izazovom budući da je 94 posto podnesaka kreiranih pomoću ChatGPT-a ostalo neotkriveno, često postižući više ocjene od stvarnih studentskih radova.

Peter Scarfe s britanskog Univerziteta u Readingu vodio je studiju u kojoj je ChatGPT generirao odgovore za 63 pitanja za procjenu u tečajevima psihologije. Ti ispiti, koji su se polagali od kuće, dopuštali su pristup bilješkama i referencama, iako upotreba umjetne inteligencije nije bila dopuštena. Studija je objavljena u časopisu PLoS One.

Odgovori generirani umjetnom inteligencijom, koji su predstavljali 5 posto ukupnih skripti, pomiješani su sa stvarnim radom učenika. Ocjenjivači, nesvjesni da ocjenjuju radove 33 fiktivna učenika, ocjenjivali su i kratke odgovore i duže eseje. Upiti za ChatGPT započinjali su s “Uključujući reference na akademsku literaturu, ali ne i odvojeni referentni odjeljak”, nakon čega je slijedilo ispitno pitanje.

Samo 6 posto odgovora umjetne inteligencije označeno je kao sumnjivo, a neki moduli nisu imali označen rad umjetne inteligencije.

U prosjeku, odgovori AI-ja dobili su više ocjene od naših stvarnih studentskih odgovora, kaže Scarfe, iako su rezultati varirali po modulima. Uprkos borbi AI-ja s apstraktnim razmišljanjem, čak 83,4 posto predanih radova AI-ja nadmašilo je studentske radove.

Značajna studija

– Ova se studija smatra najvećom i najsnažnijom te vrste, izazivajući zabrinutost i izvan odjela za psihologiju Readinga. Nemam razloga misliti da druga predmetna područja ne bi imala istu vrstu problema, ističe Scarfe.

Thomas Lancaster s Imperial Collegea u Londonu dijeli sličnu zabrinutost. Rezultati pokazuju upravo ono što sam očekivao vidjeti. Znamo da generativna umjetna inteligencija može proizvesti razumno zvučne odgovore na jednostavna, ograničena tekstualna pitanja, rekao je Lancaster.

– Teret otkrivanja sadržaja generiranog umjetnom inteligencijom na akademcima je značajan. Malo je vjerovatno da će markeri pitanja s kratkim odgovorima pod pritiskom vremena pokrenuti slučajeve lošeg ponašanja AI-a, napominje Lancaster te dodaje kako sumnja da se i druge institucije suočavaju sa sličnim izazovima.

Bavljenje problemom korištenja umjetne inteligencije u ispitima i fakultetskim zadacima je ključno. Scarfe predlaže pristup na nivou cijelog sektora. Mislim da će sektor kao cjelina morati priznati činjenicu da ćemo morati ugraditi AI u ocjene koje dajemo našim učenicima, kaže.

Budući da je rješavanje problema na njegovom izvoru gotovo nemoguće, ponovno promišljanje strategija ocjenjivanja postaje ključno, piše New Scientist.