Sve znamo da umjetna inteligencija, a posebno GPT model već mjesecima suvereno vlada bespućima interneta. Gotovo svi mediji donose priče o mogućnostima i/ili rizicima UI. Dokaz popularnosti LLM-a je i činjenica da gotovo polovica zaposlenika vodećih svjetskih tvrtki koristi ovu vrstu tehnologije u svojim radnim procesima, a mnoge druge tvrtke žure ponuditi nove proizvode s ugrađenom generativnom umjetnom inteligencijom.
No, kao što oni koji prate ovu industriju znaju, podaci koji se koriste za obuku velikih jezičnih modela (LLM) i drugih transformatorskih modela koji podupiru proizvode poput ChatGPT-a, Stable Diffusion i Midjourney dolaze izvorno od ljudi – knjiga, članaka, fotografija i sl. Do sada su svi materijali korišteni u treniranju modela stvoreni bez pomoći umjetne inteligencije. No, kako sve više ljudi koristi AI za stvaranje i objavljivanje sadržaja, javlja se očito pitanje: Što se događa kad se AI-generirani sadržaj širi internetom, a AI modeli se počnu obučavati na sazdržaju koji je generirala UI, umjesto na ljudski generiranom sadržaju?
Grupa istraživača iz Velike Britanije i Kanade proučila je upravo taj problem i nedavno objavila rad o svom istraživanju u časopisu s otvorenim pristupom arXiv. Ono što su otkrili zabrinjavajuće je kako za trenutnu tehnologiju generativne UI tako i za njezinu budućnost: “Utvrđujemo da korištenje sadržaja generiranog modelom u obuci uzrokuje nepovratne defekte u rezultirajućim modelima.”
Popunjavanje interneta besmislicama
Proučavajući posebno probability distribucije za generativne modele koji pretvaraju tekst u tekst i sliku u sliku, istraživači su zaključili da “učenje na temelju podataka koje proizvode drugi modeli dovodi do kolapsa modela – degenerativnog procesa u kojem modeli s vremenom zaboravljaju osnovnu distribuciju podataka… ovaj proces je neizbježan, čak i za slučajeve s gotovo idealnim uvjetima za dugoročno učenje.”
“Vremenom se pogreške u generiranim podacima nagomilavaju i na kraju prisiljavaju modele koji uče na generiranim podacima da još više pogrešno percipiraju stvarnost”, napisao je jedan od vodećih autora rada, Ilia Shumailov, u e-mailu za VentureBeat. “Bili smo iznenađeni koliko brzo dolazi do kolapsa modela: Modeli vrlo brzo zaboravljaju većinu izvornih podataka na kojima su prvotno učili.”
Drugim riječima: kako se model umjetne inteligencije izlaže više AI-generiranim podacima, njegova učinkovitost se s vremenom pogoršava, što rezultira većim brojem pogrešaka u odgovorima i generiranom sadržaju, te manjom raznolikošću ispravnih odgovora.
Kao što je napisao još jedan od autora rada, Ross Anderson, profesor na Sveučilištu u Cambridgeu u blogu koji raspravlja o radu: “Kao što smo more preplavili plastičnim otpadom i atmosferu napunili ugljičnim dioksidom, tako ćemo uskoro ispuniti internet besmislicama. To će otežati treniranje novijih modela prikupljanjem podataka s weba, što će dati prednost tvrtkama koje su već to učinile ili koje kontroliraju pristup ljudskim sučeljima u velikom obujmu. Doista, već vidimo kako start-upi za umjetnu inteligenciju istražuju Internet arhivu kako bi dobili podatke za treniranje.”
Ted Chiang, autor znanstvene fantastike koji radi za Microsoft nedavno je objavio članak u kojem postavlja hipotezu da će kopije umjetne inteligencije rezultirati smanjenjem kvalitete, uspoređujući problem s povećanim artefaktima koji postaju vidljivi pri višestrukom kopiranju JPEG slike. Još jedan način razmišljanja o problemu je kroz film. “Multiplicity” iz 1996, u kojem glumi Michael Keaton, govori o skromnom čovjeku koji klonira sam sebe, a zatim klonira klonove, pri čemu svaki rezultira eksponencijalno opadajućom razinom inteligencije i povećanom glupošću.
Kako dolazi do kolapsa modela?
U osnovi, kolaps modela nastaje kada podaci koje generiraju AI modeli kontaminiraju skup podataka za obuku budućih modela. “Izvorni podaci koje generiraju ljudi realnije predstavljaju svijet, odnosno sadrže i nevjerojatne podatke”, objasnio je Shumailov.
“S druge strane, generativni modeli imaju tendenciju prilagodbe podacima koje ljudi traže, te često pogrešno razumiju a potom i prikazuju manje popularne podatke.” Shumailov je ilustrirao ovaj problem s hipotetskim scenarijem u kojem se model strojnog učenja trenira na skupu podataka s slikama 100 mačaka – 10 s plavim krznom i 90 s žutim.
Model uči da su žute mačke češće prisutne, ali također prikazuje plave mačke kao više žućkaste nego što zaista jesu, vraćajući neke rezultate zelenih mačaka kada se traži generiranje novih podataka. S vremenom, izvorna karakteristika plavog krzna se izgubi kroz uzastopne cikluse obuke, prelazeći iz plave u zelenkastu, a na kraju u žutu.
Ova progresivna distorzija i konačan gubitak karakteristika manjinskih podataka predstavlja kolaps modela. Kako bi se to spriječilo, važno je osigurati pravedno predstavljanje svih skupina u skupovima podataka, kako u pogledu količine, tako i točnog prikazivanja karakterističnih značajki. Zadatak je izazovan zbog teškoća modela u učenju iz rijetkih događaja.
Ovakva onečišćenja rezultiraju modelima koji imaju iskrivljenu percepciju stvarnosti. Čak i kada su istraživači trenirali modele da ne proizvode previše ponavljajućih odgovora, utvrdili su da se kolaps modela i dalje događa, jer modeli počinju izmišljati pogrešne odgovore kako bi izbjegli prečesto ponavljanje podataka.
“Postoji mnogo drugih aspekata koji će dovesti do ozbiljnijih posljedica, poput diskriminacije na temelju spola, etničke pripadnosti ili drugih osjetljivih atributa”, rekao je Shumailov, posebno ako generativna UI s vremenom nauči generirati, primjerice, samo jednu rasu u svojim odgovorima, dok “zaboravlja” da druge postoje.
Važno je napomenuti da je ovaj fenomen različit od katastrofalnog zaboravljanja, gdje modeli gube prethodno naučene informacije. Kolaps modela znači da sistem pogrešno interpretira stvarnost na temelju svojih ojačanih uvjerenja. Istraživači koji stoje iza ovog rada utvrdili su da čak i ako se 10% izvornih podataka koje su stvorili ljudi koristi za obuku modela u sljedećim generacijama, “kolaps modela se i dalje događa, samo nešto sporije.”
Kako izbjeći kolaps modela
Srećom, postoji način za izbjegavanje kolapsa modela, čak i s postojećim transformatorima i LLM-ovima.
Istraživači ističu dva specifična načina. Prvi je zadržavanje kopije izvornog, isključivo ili djelomično ljudski stvorenog skupa podataka i izbjegavanje kontaminacije AI-generiranim podacima.
Model bi se mogao povremeno ponovno trenirati na tim podacima ili krenuti potpuno iznova – ovisno od razine kontaminacije.
Drugi način izbjegavanja degradacije kvalitete odgovora i smanjenja neželjenih pogrešaka ili ponavljanja UI modela je uvođenje novih, čistih skupova podataka u njihovu obuku. Međutim, kako su istakli znanstvenici, to bi zahtijevalo neku vrstu mehanizma masovnog označavanja ili od strane proizvođača sadržaja ili UI tvrtki kako bi se razlikovalo između UI-generiranog i ljudski generiranog sadržaja.
Trenutno ne postoji nikakav pouzdan način da se to ostvari.
“Da bismo zaustavili kolaps modela, moramo se pobrinuti da manjinske skupine iz izvornih podataka budu pravedno zastupljene u kasnijim skupovima podataka”, rekao je Shumailov za VentureBeat i nastavio: “U praksi to je potpuno složeno. Podaci moraju biti pažljivo sačuvani i pokriti sve moguće rubne slučajeve. Pri ocjenjivanju performansi modela koristite podatke na kojima se očekuje da će model raditi, čak i najnevjerojatnije slučajeve podataka. Napomena da to ne znači da se nevjerojatni podaci trebaju prekomjerno uzorkovati, već da se trebaju prikladno predstaviti. Kako napredujete u ponovnom treniranju svojih modela, pobrinite se da uključite i stare podatke i nove. To će povećati troškove obuke, ali će vam pomoći da se borite protiv kolapsa modela, barem do određene mjere.”
Uloga UI industrije i korisnika
Iako su ove vijesti zabrinjavajuće za trenutnu tehnologiju, posebno na srednji i dugi rok, postoji i svijetli aspekt za stvaraoce sadržaja: Istraživači zaključuju da će u budućnosti ispunjenoj UI alatima i njihovim sadržajem, ljudski stvoren sadržaj biti još vrijedniji nego danas – čak i samo kao izvor čistih podataka za obuku AI sustava. Ova otkrića imaju značajne implikacije za područje umjetne inteligencije, te naglašavaju potrebu za poboljšanim metodologijama održavanja integriteta generativnih modela tijekom vremena. “Jasno je da je kolaps modela problem za strojno učenje i nešto treba poduzeti u vezi s tim kako bi se osiguralo daljnje poboljšanje generativne UI”, zaključio je Shumailov.






