Ova najava dolazi u vrijeme kada se medijska platforma sve više okreće od Metaversa prema ugradnji AI značajki na svoje platforme poput Instagrama, Facebooka, Messengera i WhatsAppa. Analiza fotografija uz kompjuterski vid je glavna značajka novog alata koji se bazira na tehnologiji prepoznavanja objekata.
Uređivanje fotografija, analiza nadzornih snimki i razumijevanje dijelova stanica.
Ovi zadaci imaju nešto zajedničko: trebate moći identificirati i odvojiti različite objekte unutar slike. Tradicionalno, istraživači su morali započeti ispočetka svaki put kad žele analizirati novi dio slike.
Meta ima za cilj promijeniti ovaj proces tako što će stvoriti mjesto za istraživače i web programere koji rade na takvim problemima. Kompanija je u srijedu objavila AI model nazvan “Segment Anything Model” ili “SAM”, putem kojeg korisnici mogu stvarati “izrezane dijelove” ili segmente bilo kojeg predmeta na slici klikom na točku ili crtanje okvira oko objekta. Alat se može koristiti u istraživačke svrhe, za kreativno uređivanje ili čak za razumijevanje objekata dok nosite VR naočale, čime se postupak brže i učinkovitije dijeli na različite dijelove slike.
Tehnološka kompanija je javnosti predstavila alat koji se koristi preko web preglednika, a također je i open-sourceao svoj model računalnog vida, za koji tvrdi da je treniran na “najvećem skupu podataka o segmentaciji” od 1,1 milijardu maski segmentacije (maske su različiti dijelovi slike) i 11 milijuna slika koje je licencirao od velike fotografske tvrtke. No, Meta nije otkrila s kojom tvrtkom je sklopila ugovor o licenciranju slika. Meta AI, istraživački odjel za umjetnu inteligenciju, surađivao je s 130 ljudskih anotatora baziranih u Keniji kako bi stvorio skup podataka, koji je stvoren kombinacijom ručne i automatske označavanja milijardu dijelova milijuna slika.
Pročitaj više: Meta razvila open source modele za umjetnu inteligenciju sa podrškom za 1100 jezika
Tehnologije prepoznavanja objekata i računalnog vida prisutne su već godinama i već su integrirane u različite uređaje poput nadzornih kamera i bespilotnih letjelica. Na primjer, Amazonove trgovine koriste prepoznavanje objekata kako bi otkrile predmete koje stavljate u košaricu, a autonomna vozila koriste ga kako bi percipirala svoje okruženje. Suvremene startup tvrtke poput Runwaya i vodeće tvrtke poput Adobea komercijalizirale su svoju sposobnost korištenja AI za otkrivanje i odabir različitih objekata unutar slike za svoje kreativne korisnike. Kako su se pojavili i generativni AI chatbotovi, cilj AI istraživača u Meti bio je spojiti napredak u temeljnim modelima AI-a s donekle uspavanim područjem računalnog vida.
Nova tehnologija?
“Ne bih rekao da je ovo nova područje tehnologije. Segmentacija objekata već postoji, pa ne bih rekao da je ovo nova sposobnost. Bitno je da pristup korištenju temeljnih modela jest nov, a veličina skupa podataka na kojem treniraju mogla bi biti nova”, kaže Paul Powers, izvršni direktor i osnivač tvrtke Physna, pretraživača za 3D objekte.
No, Meta se nada da će puštanjem ovih alata u širu upotrebu potaknuti korisnike da grade na temelju njihovog generaliziranog modela za specifičnije primjene u područjima poput biologije i poljoprivrede.
Ova objava dolazi istovremeno dok se izvještava da Meta planira koristiti generativnu AI za oglašavanje na Instagramu i Facebooku. Ne želeći propustiti uzbuđenje oko AI-a, CEO Mark Zuckerberg je krajem veljače najavio da stvara novi tim proizvoda koji se isključivo usredotočuje na izgradnju alata za generativnu AI, poput umjetnih persona, Instagram filtara i chat značajki u WhatsAppu i Instagramu. Navodno većinu svog vremena Zuckerberg provodi s novim timom za AI.
Alat SAM je namijenjen onima koji nemaju infrastrukturu AI-a ili kapacitet podataka za stvaranje vlastitih modela za “segmentaciju” ili prepoznavanje različitih dijelova slike, kažu istraživači Meta AI-a, Alexander Kirillov i Nikhila Ravi. “Ovo se događa u stvarnom vremenu u pregledniku i to čini ovaj model dostupnijim mnogo široj publici jer im nije potrebno pokretati mnogo stvari na GPU-u… Možemo omogućiti mnogo više rubnih slučajeva koje neke druge metode možda ne bi dopustile”, kaže Ravi.
Međutim, postoje ograničenja računalnog vida modela obučenog na bazi podataka dvodimenzionalnih slika, kaže Powers. Na primjer, da bi alat prepoznao i odabrao daljinski upravljač okrenut naopako, trebao bi biti obučen na različitim orijentacijama istog objekta. Modeli obučeni na 2D slikama neće pomoći u prepoznavanju slika koje su djelomično prekrivene ili djelomično izložene, kaže Powers. To znači da ne bi točno identificirao nestandardizirane objekte putem AR/VR naočala ili ne bi detektirao djelomično prekrivene objekte u javnim prostorima ako se koristi od strane proizvođača autonomnih vozila.
Upotreba alata
Za tvrtku, koja se preimenovala iz Facebooka u Metu krajem 2021., najočitija upotreba ovog alata za prepoznavanje objekata je u njihovim virtualnim prostorima stvarnosti poput online VR igre Horizon Worlds. Kirillov i Ravi kažu da njihov alat za prepoznavanje objekata može se koristiti za “gledanje bazirano” prepoznavanje objekata putem VR i AR naočala.
Model može prepoznati nepoznate objekte i raditi preko domena s podvodnim, mikroskopskim, zračnim i poljoprivrednim slikama. Kirillov kaže da ga je inspirirao stvaranje generaliziranog modela segmentacije slika dok je razgovarao s doktorandima. “Davao sam prezentaciju o segmentaciji nekim prirodnim znanstvenicima u Berkeleyju i ljudi su rekli: ‘U redu, super, ali trebam brojati i identificirati drveće na slikama koje sam prikupio za svoje istraživanje o požarima u Kaliforniji’, i ovaj model im to može omogućiti”, kaže Kirillov za Forbes.






