Segmentacija slike je ključni zadatak u računalnom vidu koji pomaže u identificiranju piksela na slici koji pripadaju određenom objektu. Taj zadatak igra vitalnu ulogu u mnogim stvarnim aplikacijama, od znanstvene analize do uređivanja fotografija. Međutim, izgradnja točnog modela segmentacije za određeni zadatak zahtijeva stručnost tehničkih stručnjaka s pristupom infrastrukturi za obuku umjetne inteligencije i obilje anotiranih podataka. Google je sada predstavio projekt Segment Anything s ciljem demokratizacije segmentacije slike pružanjem općeg modela segmentacije koji se može prilagoditi specifičnim zadacima.
Projekt Segment Anything usredotočen je na stvaranje temeljnog modela za segmentaciju slike koji se može trenirati na raznolikim podacima i prilagoditi novim zadacima. Da bi to postigli, Google je stvorio skup podataka neviđenih razmjera i objavio Segment Anything Model (SAM) i Segment Anything 1-Billion mask dataset (SA-1B) pod dozvoljenom otvorenom licencom (Apache 2.0). Ovaj članak će detaljnije istražiti projekt Segment Anything i raspraviti o njegovim potencijalnim aplikacijama.
Generalizirani model segmentacije
Segment Anything projekt ima za cilj smanjiti potrebu za stručnošću u modeliranju za određene zadatke, računsku snagu i prilagođenu anotaciju podataka za segmentaciju slike. Kako bi to postigli, Google je stvorio općeniti model koji može naučiti općenitu ideju o tome što su objekti i generirati maske za bilo koji objekt na bilo kojoj slici ili videozapisu, čak i za objekte i vrste slika koje nisu susreli tijekom treninga. SAM je opći model koji obuhvaća široki skup upotreba i može se koristiti “out of the box” na novim slikovnim “domenama” bez potrebe za dodatnim treniranjem.
Ranije su postojale dvije vrste pristupa segmentaciji. Pristup interaktivne segmentacije omogućavao je segmentaciju bilo koje klase objekata, ali je zahtijevao osobu koja bi usmjeravala metodu iterativnim poboljšanjem maske. Drugi pristup, automatska segmentacija, omogućavao je segmentaciju specifičnih kategorija objekata definiranih unaprijed (npr. mačke ili stolice), ali je zahtijevao značajne količine ručno anotiranih objekata za obuku (tj. tisuće ili čak desetke tisuća primjera segmentiranih mačaka), kao i računske resurse i tehničko znanje za obuku modela segmentacije. SAM je generalizacija tih dvaju pristupa, omogućavajući i interaktivnu i automatsku segmentaciju. Njegov sučelje omogućuje fleksibilno korištenje za širok raspon zadataka segmentacije putem prilagođavanja odgovarajućeg poziva za model (klikovi, okviri, tekst itd.).
Skup podataka neviđenog razmjera
Projekt Segment Anything istovremeno je razvio općeniti model segmentacije koji se može pozvati i koristio ga za stvaranje skupa podataka segmentacije neviđenih razmjera. Skup podataka Segment Anything 1-Billion mask (SA-1B) najveći je ikada skup podataka segmentacije, što omogućuje obuku temeljnog modela segmentacije. SA-1B omogućuje SAM-u da generalizira na nove vrste objekata i slike izvan onoga što je vidio tijekom treninga. Praktičari više neće morati prikupljati vlastite podatke o segmentaciji i fino podešavati model za svoj slučaj upotrebe, zahvaljujući sposobnosti modela da generalizira.
Sposobnosti SAM-a
SAM omogućuje korisnicima da segmentiraju objekte jednim klikom ili interaktivnim klikovima na točke koje treba uključiti ili isključiti iz objekta. Model također može biti pozvan sa ograničavajućim okvirom. SAM može izbaciti više valjanih maski kada se suoči s nejasnoćama oko objekta koji se segmentira, što je ključna i neophodna sposobnost za rješavanje segmentacije u stvarnom svijetu. Model može automatski pronaći i maskirati sve objekte u slici i generirati masku segmentacije za bilo koji prompt u stvarnom vremenu nakon prethodnog računanja ugniježđene slike. Ova sposobnost omogućuje upotrebu SAM-a u različitim aplikacijama.
Potencijalne primjene
U budućnosti, SAM bi mogao poslužiti kao pomoć u pokretanju aplikacija u brojnim područjima koja zahtijevaju pronalaženje i segmentiranje bilo kojeg objekta u bilo kojoj slici. Zajednica istraživača umjetne inteligencije i drugi mogli bi koristiti SAM kao komponentu u većim sustavima umjetne inteligencije za općenitiju multimodalnu razumijevanje svijeta. Na primjer, SAM bi se mogao koristiti u autonomnim vozilima kako bi im pomogao razumjeti svoju okolinu kombiniranjem vizualnih i slušnih ulaza. SAM bi također mogao biti korišten u pametnim kućnim sustavima kako bi im se omogućilo prepoznavanje i odgovaranje na glasovne naredbe, kao i zvučne signale poput zvučnog alarma ili zvona na vratima.
Još jedna potencijalna primjena SAM-a je u području interakcije između ljudi i računala. Pomoću SAM-a, računala bi mogla prepoznati i reagirati ne samo na govorne naredbe, već i na suptilne neverbalne znakove poput uzdaha ili promjena tonaliteta glasa. To bi moglo dovesti do intuitivnijih i prirodnijih interakcija između ljudi i strojeva.
Osim toga, SAM bi se mogao koristiti za poboljšanje dostupnosti tehnologije osobama s oštećenjem sluha. Analizirajući vizualne znakove poput pokreta usana i izraza lica, SAM bi mogao pružiti transkripciju i prijevod govora u tekstualni oblik u stvarnom vremenu, što bi olakšalo komunikaciju osobama s oštećenjem sluha.
Sve u svemu, SAM predstavlja značajan korak naprijed u razvoju AI sustava koji mogu razumjeti i tumačiti multimodalne ulaze. Kako ovi sustavi postaju sve napredniji i široko usvojeni, imaju potencijal da revolucioniziraju mnoge industrije i poboljšaju način na koji interakcioniramo s tehnologijom.
Povezani članci
Bank of America koristit će AI i VR za obuku zaposlenika
Sedaro dizajn svemirskih letjelica
RealWear predstavlja Navigator Z1: inovativno rješenje za radnike