Velika većina nas uzima vid zdravo za gotovo. Nebo, zvijezde, more, i zelenilo su pojmovi koji automatski povlače konotacije, bilo boja ili oblika. No, za slijepe i slabovidne osobe vidjeti plavetnilo mora ili bogato zelenilo šume do sada je predstavljalo nedostižan san. Američki start-up Ask Envision želi to promijeniti uz pomoć AI asistivne tehnologije koja bi slijepima i slabovidnima omogućila tekstualni i audio prikaz okoliša i detalja.
Značajke Ask Envision sustava
Ask Envision koristi GPT-4 kao bazu za razvoj multimodalnog sustava interakcije koji pretvara vizualne upite u audio i tekstualne odgovore. Kako navode iz kompanije, zahvaljujući bogatom korpusu znanja i mogućnosti verbalizacije GPT-4 modela, korisnici dobivaju vrlo detaljne opise i interakcije. Do sada su slijepe i slabovidne osobe ovisile o vlastitoj snalažljivosti ili su pak imali asistente, članove obitelji, ili druge da im opišu okoliš i detalje. S Ask Envisionom bi trebali imati neiscrpan izvor opisa u džepu, jer je program dostupan u vidu aplikacije.
Prvotni program je imao ograničene opcije te je mogao samo opisati sadržaj fotografija na upit korisnika. No, 2021 dolazi nova verzija koja se mogla povezati na Google Glasses te je rabila screen capture tehnologiju. Izlaskom ChatGPT u Studenom 2022 dolazi do još jedne promjene, te Ask Envision razvija osobnog asistenta koji pruža govorne i tekstualne odgovore na upite. Osim Ask Envision još nekoliko kompanija razvija slične sustave pomoći za slijepe i slabovidne, što bi moglo značiti značajno poboljšanje kvalitete života.
Kako funkcionira Ask Envision
Kad korisnik treba pomoć, jednostavno skenira ili pita aplikaciju koja pruža odgovor. Na primjer, večerate u restoranu ali slabo vidite i ne znate kolike su cijene. Aplikacija Vam može izrecitirati sve s menija ili samo određene stavke tako što se spoji na web, pročita meni i prenese u audio formatu. Alternativno, u aplikaciju možete unijeti sliku menija koju će AI analizirati i objasniti što sadrži, koje su cijene, i slično. Također, ako niste sigurni da li neko jelo sadrži, na primjer kikiriki – ako ste alergični – aplikacija Vam može pomoći.
Po izjavama testera aplikacije, mogućnosti su zaista bezbrojne, od pomoći u svakodnevnim aktivnostima – kao držanje kalendara sastanaka – do razumijevanja uputstava za uporabu aparata i slično. Neki testeri su ostali zapanjeni detaljnim opisima okoliša, gdje aplikacija pruža iscrpne opise boja, pejsaža i slično. Neki su to poistovjetili s čitanjem audio knjige, osim što se sve odvija u stvarnom vremenu. Interakcija s Google Glass daje još više mogućnosti, kao direktno skeniranje i slikanje što omogućava slijepim osobama da se bolje snalaze u svakodnevnim zadatcima. Osobito je praktično za osobe koje koriste štap i psa vodiča, jer mogu neometano koristiti aplikaciju i istodobno se kretati.
Prednosti i nedostatci
Kako kaže Sina Bahram, istraživačica asistivnih tehnologija za slijepe, ovo je golem korak naprijed jer pruža potpuno novu razinu interaktivnosti. Ne samo da slijepe osobe više ne će morati plaćati asistente, već će na dohvat ruke imati golem korpus znanja koji će im pomagati u svakodnevnom životu. Bahram koristi Be My Eyes s GPT-4 i kaže da veliki jezični model donosi ogromnu razliku u odnosu na prethodne generacije tehnologije zbog svojih sposobnosti i lakoće korištenja jer ne zahtijevaju nikakve tehničke vještine.
Danna Gurari, docentica računalne znanosti na Sveučilištu Colorado, kaže da su slijepi ljudi na samom vrhu usvajanja tehnologije. No, ovo je istovremeno i pomalo zabrinjavajuće, s obzirom na to da se takva ranjiva populacija mora suočavati s nesavršenošću i nepotpunošću novih tehnologija, a osobito AI.
Svake godine, Gurari organizira radionicu pod nazivom Viz Wiz na konferenciji za računalni vid i prepoznavanje uzoraka kako bi povezala tvrtke poput Envisiona s istraživačima umjetne inteligencije i korisnicima tehnologije za slijepe. U ranim testiranjima nekih modela pretvaranja slike u tekst, Gurari je primijetila da oni mogu izmišljati informacije ili “halucinirati”. Većina onoga čemu možete bezrezervno vjerovati su samo opservacije velikih objekata, poput ‘Vidim auto, vidim osobu, vidim drvo'”, kaže ona. To nije trivijalna informacija, ali korisnik ne može nužno vjerovati da će AI ispravno reći što se nalazi u njihovom vidnom polju. Ako AI pogrešno opiše lijek, na primjer, to može imati posljedice po život. No, dodaje i da svaka nova iteracija modela donosi znatno veću preciznost prepoznavanja, što pak sugerira da bi u dogledno vrijeme ova tehnologija mogla postati univerzalno dostupna i korištena.
Tehnologija još uvijek ne može pružiti osnovne vještine mobilnosti koje slijepa osoba treba za neovisnost, ali beta testeri Ask Envisiona su dosad impresionirani sustavom. Naravno, uz prepoznavanje navedenih ograničenja.






