• Kontakt
  • Politika privatnosti i kolačića
  • Pišite za nas
  • Uvjeti korištenja
  • Oglašavanje
Ponedjeljak, 16 veljače, 2026
TehnoHR
  • Home
  • AI
  • Automatizacija
  • Cybersigurnost
  • Računala & Mreže
    • Gaming
    • Baza znanja
    • Help Desk
  • Tehnologija
  • Tehnokracija
  • Znanost
No Result
View All Result
TehnoHR
  • Home
  • AI
  • Automatizacija
  • Cybersigurnost
  • Računala & Mreže
    • Gaming
    • Baza znanja
    • Help Desk
  • Tehnologija
  • Tehnokracija
  • Znanost
No Result
View All Result
TehnoHR
No Result
View All Result
Home AI

Znanstvenici upozoravaju na mogući kolaps LLP modela zbog povratne petlje u treningu.

by TehnoHR
in AI, Znanost
Reading Time: 6 mins read
0
umjetna inteligencija gpt model
Share on FacebookShare on Twitter

Sve znamo da umjetna inteligencija, a posebno GPT model već mjesecima suvereno vlada bespućima interneta. Gotovo svi mediji donose priče o mogućnostima i/ili rizicima UI. Dokaz popularnosti LLM-a je i činjenica da gotovo polovica zaposlenika vodećih svjetskih tvrtki koristi ovu vrstu tehnologije u svojim radnim procesima, a mnoge druge tvrtke žure ponuditi nove proizvode s ugrađenom generativnom umjetnom inteligencijom.

Slične Teme

Što su AI asistenti i čemu služe?

Gemini AI – ili kako je Google postao refleksija iskrivljene stvarnosti

Upoznajte Dragonfire laser, novi anti-dron sustav Britanske vojske

No, kao što oni koji prate ovu industriju znaju, podaci koji se koriste za obuku velikih jezičnih modela (LLM) i drugih transformatorskih modela koji podupiru proizvode poput ChatGPT-a, Stable Diffusion i Midjourney dolaze izvorno od ljudi – knjiga, članaka, fotografija i sl. Do sada su svi materijali korišteni u treniranju modela stvoreni bez pomoći umjetne inteligencije. No, kako sve više ljudi koristi AI za stvaranje i objavljivanje sadržaja, javlja se očito pitanje: Što se događa kad se AI-generirani sadržaj širi internetom, a AI modeli se počnu obučavati na sazdržaju koji je generirala UI, umjesto na ljudski generiranom sadržaju?

Grupa istraživača iz Velike Britanije i Kanade proučila je upravo taj problem i nedavno objavila rad o svom istraživanju u časopisu s otvorenim pristupom arXiv. Ono što su otkrili zabrinjavajuće je kako za trenutnu tehnologiju generativne UI tako i za njezinu budućnost: “Utvrđujemo da korištenje sadržaja generiranog modelom u obuci uzrokuje nepovratne defekte u rezultirajućim modelima.”

Popunjavanje interneta besmislicama

Proučavajući posebno probability distribucije za generativne modele koji pretvaraju tekst u tekst i sliku u sliku, istraživači su zaključili da “učenje na temelju podataka koje proizvode drugi modeli dovodi do kolapsa modela – degenerativnog procesa u kojem modeli s vremenom zaboravljaju osnovnu distribuciju podataka… ovaj proces je neizbježan, čak i za slučajeve s gotovo idealnim uvjetima za dugoročno učenje.”

“Vremenom se pogreške u generiranim podacima nagomilavaju i na kraju prisiljavaju modele koji uče na generiranim podacima da još više pogrešno percipiraju stvarnost”, napisao je jedan od vodećih autora rada, Ilia Shumailov, u e-mailu za VentureBeat. “Bili smo iznenađeni koliko brzo dolazi do kolapsa modela: Modeli vrlo brzo zaboravljaju većinu izvornih podataka na kojima su prvotno učili.”

Drugim riječima: kako se model umjetne inteligencije izlaže više AI-generiranim podacima, njegova učinkovitost se s vremenom pogoršava, što rezultira većim brojem pogrešaka u odgovorima i generiranom sadržaju, te manjom raznolikošću ispravnih odgovora.

Kao što je napisao još jedan od autora rada, Ross Anderson, profesor na Sveučilištu u Cambridgeu u blogu koji raspravlja o radu: “Kao što smo more preplavili plastičnim otpadom i atmosferu napunili ugljičnim dioksidom, tako ćemo uskoro ispuniti internet besmislicama. To će otežati treniranje novijih modela prikupljanjem podataka s weba, što će dati prednost tvrtkama koje su već to učinile ili koje kontroliraju pristup ljudskim sučeljima u velikom obujmu. Doista, već vidimo kako start-upi za umjetnu inteligenciju istražuju Internet arhivu kako bi dobili podatke za treniranje.”

Ted Chiang, autor znanstvene fantastike koji radi za Microsoft nedavno je objavio članak u kojem postavlja hipotezu da će kopije umjetne inteligencije rezultirati smanjenjem kvalitete, uspoređujući problem s povećanim artefaktima koji postaju vidljivi pri višestrukom kopiranju JPEG slike. Još jedan način razmišljanja o problemu je kroz film. “Multiplicity” iz 1996, u kojem glumi Michael Keaton, govori o skromnom čovjeku koji klonira sam sebe, a zatim klonira klonove, pri čemu svaki rezultira eksponencijalno opadajućom razinom inteligencije i povećanom glupošću.

Kako dolazi do kolapsa modela?

U osnovi, kolaps modela nastaje kada podaci koje generiraju AI modeli kontaminiraju skup podataka za obuku budućih modela. “Izvorni podaci koje generiraju ljudi realnije predstavljaju svijet, odnosno sadrže i nevjerojatne podatke”, objasnio je Shumailov.

“S druge strane, generativni modeli imaju tendenciju prilagodbe podacima koje ljudi traže, te često pogrešno razumiju a potom i prikazuju manje popularne podatke.” Shumailov je ilustrirao ovaj problem s hipotetskim scenarijem u kojem se model strojnog učenja trenira na skupu podataka s slikama 100 mačaka – 10 s plavim krznom i 90 s žutim.

Model uči da su žute mačke češće prisutne, ali također prikazuje plave mačke kao više žućkaste nego što zaista jesu, vraćajući neke rezultate zelenih mačaka kada se traži generiranje novih podataka. S vremenom, izvorna karakteristika plavog krzna se izgubi kroz uzastopne cikluse obuke, prelazeći iz plave u zelenkastu, a na kraju u žutu.

Ova progresivna distorzija i konačan gubitak karakteristika manjinskih podataka predstavlja kolaps modela. Kako bi se to spriječilo, važno je osigurati pravedno predstavljanje svih skupina u skupovima podataka, kako u pogledu količine, tako i točnog prikazivanja karakterističnih značajki. Zadatak je izazovan zbog teškoća modela u učenju iz rijetkih događaja.

Ovakva onečišćenja rezultiraju modelima koji imaju iskrivljenu percepciju stvarnosti. Čak i kada su istraživači trenirali modele da ne proizvode previše ponavljajućih odgovora, utvrdili su da se kolaps modela i dalje događa, jer modeli počinju izmišljati pogrešne odgovore kako bi izbjegli prečesto ponavljanje podataka.

“Postoji mnogo drugih aspekata koji će dovesti do ozbiljnijih posljedica, poput diskriminacije na temelju spola, etničke pripadnosti ili drugih osjetljivih atributa”, rekao je Shumailov, posebno ako generativna UI s vremenom nauči generirati, primjerice, samo jednu rasu u svojim odgovorima, dok “zaboravlja” da druge postoje.

Važno je napomenuti da je ovaj fenomen različit od katastrofalnog zaboravljanja, gdje modeli gube prethodno naučene informacije. Kolaps modela znači da sistem pogrešno interpretira stvarnost na temelju svojih ojačanih uvjerenja. Istraživači koji stoje iza ovog rada utvrdili su da čak i ako se 10% izvornih podataka koje su stvorili ljudi koristi za obuku modela u sljedećim generacijama, “kolaps modela se i dalje događa, samo nešto sporije.”

Kako izbjeći kolaps modela

Srećom, postoji način za izbjegavanje kolapsa modela, čak i s postojećim transformatorima i LLM-ovima.

Istraživači ističu dva specifična načina. Prvi je zadržavanje kopije izvornog, isključivo ili djelomično ljudski stvorenog skupa podataka i izbjegavanje kontaminacije AI-generiranim podacima.

Model bi se mogao povremeno ponovno trenirati na tim podacima ili krenuti potpuno iznova – ovisno od razine kontaminacije.

Drugi način izbjegavanja degradacije kvalitete odgovora i smanjenja neželjenih pogrešaka ili ponavljanja UI modela je uvođenje novih, čistih skupova podataka u njihovu obuku. Međutim, kako su istakli znanstvenici, to bi zahtijevalo neku vrstu mehanizma masovnog označavanja ili od strane proizvođača sadržaja ili UI tvrtki kako bi se razlikovalo između UI-generiranog i ljudski generiranog sadržaja.

Trenutno ne postoji nikakav pouzdan način da se to ostvari.

“Da bismo zaustavili kolaps modela, moramo se pobrinuti da manjinske skupine iz izvornih podataka budu pravedno zastupljene u kasnijim skupovima podataka”, rekao je Shumailov za VentureBeat i nastavio: “U praksi to je potpuno složeno. Podaci moraju biti pažljivo sačuvani i pokriti sve moguće rubne slučajeve. Pri ocjenjivanju performansi modela koristite podatke na kojima se očekuje da će model raditi, čak i najnevjerojatnije slučajeve podataka. Napomena da to ne znači da se nevjerojatni podaci trebaju prekomjerno uzorkovati, već da se trebaju prikladno predstaviti. Kako napredujete u ponovnom treniranju svojih modela, pobrinite se da uključite i stare podatke i nove. To će povećati troškove obuke, ali će vam pomoći da se borite protiv kolapsa modela, barem do određene mjere.”

Uloga UI industrije i korisnika

Iako su ove vijesti zabrinjavajuće za trenutnu tehnologiju, posebno na srednji i dugi rok, postoji i svijetli aspekt za stvaraoce sadržaja: Istraživači zaključuju da će u budućnosti ispunjenoj UI alatima i njihovim sadržajem, ljudski stvoren sadržaj biti još vrijedniji nego danas – čak i samo kao izvor čistih podataka za obuku AI sustava. Ova otkrića imaju značajne implikacije za područje umjetne inteligencije, te naglašavaju potrebu za poboljšanim metodologijama održavanja integriteta generativnih modela tijekom vremena. “Jasno je da je kolaps modela problem za strojno učenje i nešto treba poduzeti u vezi s tim kako bi se osiguralo daljnje poboljšanje generativne UI”, zaključio je Shumailov.

Tags: chatgptkontekstualna umjetna inteligencijaOpenAIumjetna inteligencija
ShareTweet

Možda Vas Zanima!

Što su AI asistenti i čemu služe?

by TehnoHR
28/10/2025
ai-asistenti

Zamislite se u situaciji da ste ultra mega super uspješni. Imate brdo novca, gomilu poslovnih partnera, a samim time i obaveza. Kako bi najoptimalnije iskoristili svoje vrijeme, potrebna...

Pročitaj višeDetails

Gemini AI – ili kako je Google postao refleksija iskrivljene stvarnosti

by TehnoHR
25/02/2024
photo credit: google.com

Svi ste vjerojatno već čuli za novi LLM koji Google naziva Gemini AI. Nastavljajući se na Bard, Gemini nudi nove mogućnosti.

Pročitaj višeDetails

Upoznajte Dragonfire laser, novi anti-dron sustav Britanske vojske

by TehnoHR
04/02/2024

Dragonfire laser je prvi projekt koji koristi lasere za obaranje bespilotnih letjelica razvijen u Velikoj Britaniji.

Pročitaj višeDetails

Na MIT-u se razvija sinaptičko računalo koje kopira ljudski način razmišljanja

by TehnoHR
24/12/2023
mit-sinaptičko-računalo

Znanstvenici s MIT-a razvili sinaptičko računalo koje u potpunosti imitira ljudski način razmišljanja što ubrzava izvršavanje zadataka.

Pročitaj višeDetails

Studija o samoprepoznavanju na miševima otkriva tajne percepcije

by TehnoHR
14/12/2023
samopercepcija

Novo istraživanje na miševima otkriva kako mozak procesira i sprema podatke o sebi te kako funkcionira samopercepcija.

Pročitaj višeDetails
Slijedeći post
eu želi razbiti google

Europska Unija želi razbiti Google-ov monopol u online oglašavanju

Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)

O NAMA

https://tehnohr.com

Sve o umjetnoj inteligenciji, kibernetičkoj sigurnosti i tehnologiji

Oznake

ai ai asistent ai generator slika ai generirane slike ai umjetnost android apple arheologija automatizacija chatbot chatgpt Chat GPT CL0P crne rupe cyber sigurnost cybersigurnost društvene mreže Europska Unija fizika generativna AI google iPhone 15 kibernetička sigurnost kontekstualna umjetna inteligencija kvantna fizika marvel meta microsoft nasa OpenAI primjena umjetne inteligencije računala i mreže reddit regulacija AI roboti snapchat Snowflake svemir tehnologija threads twitter umjetna inteligencija whatsapp wordpress znanost

Izbornik

  • Kontakt
  • Politika privatnosti i kolačića
  • Pišite za nas
  • Uvjeti korištenja
  • Oglašavanje

Newsletter

Ako želite primati tjedni pregled vijesti o AI, tehnologiji i znanosti, pretplatite se na naš newsletter. Nećemo Vas gnjaviti reklamama!

© 2023 TehnoHR - sva prava pridržana

No Result
View All Result
  • Home
  • AI
  • Automatizacija
  • Cybersigurnost
  • Računala & Mreže
    • Gaming
    • Baza znanja
    • Help Desk
  • Tehnologija
  • Tehnokracija
  • Znanost

© 2023 TehnoHR - sva prava pridržana