TechSpot praznuje 25. obletnico. TechSpot pomeni tehnično analizo in nasvet, ki mu lahko zaupate.
Na kratko: Ne glede na to, ali jih imate radi ali jih sovražite, so generativna orodja AI, kot sta ChatGPT in Stable Diffusion, tu, da ostanejo in se hitro razvijajo. Raziskovalci delajo na novih izvedbah, ki počasi prihajajo v središče pozornosti, kot je novo orodje, imenovano DragGAN, ki je videti kot Photoshopovo orodje Warp na steroidih.
Do zdaj tudi najbolj priložnostni spremljevalci tehnoloških novic poznajo generativna orodja AI, kot so ChatGPT, Stable Diffusion, Midjourney in DALL-E. Big Tech tekmuje za razvoj najboljših velikih jezikovnih modelov in njihovo vgradnjo v vsak kos programske opreme ali spletne storitve, ki jo uporabljamo, in množica startupov dela na specializiranih orodjih AI za najrazličnejše nišne primere uporabe.
Mnoga od teh orodij lahko ustvarijo uporabne slike ali besedilo z uporabo preprostih pozivov, ki opisujejo, kaj uporabnik želi izvedeti, ali vrsto dela, ki ga poskuša doseči. Ko deluje, so storitve, kot sta ChatGPT in DALL-E, videti kot čarobne. Ko se ne zgodi, se spomnimo, kako daleč smo od tega, da bi umetna inteligenca nadomestila človeško ustvarjalnost, če sploh kdaj. Pravzaprav je veliko teh orodij „urjenih” na delih, ki so jih ustvarili ljudje, in potrebujejo človeški nadzor, da izboljšajo svoje rezultate na smiselno raven.
– Xingang Pan (@XingangP) 19. maj 2023
Nove raziskave umetne inteligence kažejo, da je napredek še vedno hiter, zlasti na področju manipulacije slik. Skupina znanstvenikov iz Googla, MIT, Univerze v Pennsylvaniji in Inštituta Maxa Plancka za informatiko v Nemčiji je objavila članek s podrobnostmi o eksperimentalnem orodju, ki bi lahko naredilo urejanje slik enostavnejše in bolj dostopno običajnim ljudem.
Če želite dobiti predstavo o tem, kaj je mogoče z novim orodjem, lahko bistveno spremenite videz osebe ali predmeta tako, da preprosto kliknete in povlečete določeno funkcijo. Prav tako lahko naredite stvari, kot je spreminjanje izraza na obrazu nekoga, spreminjanje oblačil modnega modela ali obračanje motiva na fotografiji, kot da bi bil 3D model. Predstavitve videoposnetkov so zagotovo impresivne, čeprav orodje v času pisanja tega članka ni na voljo javnosti.
To je morda le videti kot Photoshop na steroidih, vendar je vzbudilo dovolj zanimanja, da se je spletno mesto raziskovalne skupine zrušilo. Navsezadnje se lahko besedilni pozivi v teoriji slišijo preprosto, vendar zahtevajo veliko prilagajanja, ko potrebujete nekaj zelo specifičnega ali zahtevate več korakov za ustvarjanje želenega rezultata.
Ta težava je privedla do novega poklica – poklica »hitrega inženirja AI«. Odvisno od podjetja in posebnosti zadevnega projekta lahko tovrstno delo plača do 335.000 $ na leto in ne zahteva diplome.
Nasprotno pa uporabniški vmesnik, predstavljen v predstavitvenih videoposnetkih, nakazuje, da bo povprečen človek kmalu lahko naredil nekaj od tega, kar lahko stori inženir za hitro umetno inteligenco, tako da samo klikne in povleče na prvi izhod katerega koli orodja za ustvarjanje slike. Raziskovalci pojasnjujejo, da bo DragGAN „haluciniral” zaprto vsebino, deformiral predmet ali spremenil pokrajino.
Raziskovalci ugotavljajo, da lahko DragGAN preoblikuje vsebino slike v samo nekaj sekundah, če uporablja Nvidijino grafično kartico GeForce RTX 3090, saj njihovi izvedbi ni treba uporabiti več nevronskih mrež, da bi dosegli želene rezultate. Naslednji korak bo razvoj podobnega modela za točkovno urejanje 3D modelov. Tisti, ki želite izvedeti več o DragGAN, lahko članek preberete tukaj. Raziskava bo avgusta predstavljena tudi na SIGGRAPH.