„Google“ dirbtinio intelekto tyrimų organizacija „DeepMind“ pristatė modelį, galintį sukurti „begalinę“ žaidžiamų 3D pasaulių įvairovę.
„Genie 2“ pavadintas modelis – šių metų pradžioje išleisto „DeepMind's Genie“ įpėdinis – gali sukurti interaktyvią, realaus laiko sceną iš vieno vaizdo ir teksto aprašymo (pvz., „Mielas robotas humanoidas miške“). Tokiu būdu jis panašus į modelius, kuriuos kuria Fei-Fei Li kompanija, World Labs ir Izraelio startuolis Decart.
„DeepMind“ teigia, kad „Genie 2“ gali sukurti „didžiulę turtingų 3D pasaulių įvairovę“, įskaitant pasaulius, kuriuose vartotojai gali atlikti tokius veiksmus kaip šokinėjimas ir plaukimas naudodami pelę ar klaviatūrą. Išmokytas vaizdo įrašų, modelis gali imituoti objektų sąveiką, animaciją, apšvietimą, fiziką, atspindžius ir „NPC“ elgesį.
Daugelis „Genie 2“ modeliavimų atrodo kaip AAA vaizdo žaidimai – priežastis gali būti ta, kad modelio mokymo duomenyse yra populiarių pavadinimų žaidimų. Tačiau „DeepMind“, kaip ir daugelis AI laboratorijų, neatskleis daug informacijos apie savo duomenų gavimo metodus dėl konkurencijos ar kitų priežasčių.
Įdomu dėl IP pasekmių. „DeepMind“, būdama „Google“ dukterinė įmonė, turi nevaržomą prieigą prie „YouTube“, o „Google“ anksčiau nurodė, kad jos paslaugų sąlygos suteikia jai leidimą naudoti „YouTube“ vaizdo įrašus modelių mokymui. Bet ar „Genie 2“ iš esmės kuria neleistinas žaidimų, kuriuos „žiūrėjo“, kopijas? Manau, kad tai turi nuspręsti teismai.
„Genie 2“ gali sukurti nuoseklius pasaulius su skirtingomis perspektyvomis, pvz., pirmojo asmens ir izometrinius vaizdus, iki minutės, o dauguma jų trunka 10–20 sekundžių.
„Genie 2 protingai reaguoja į veiksmus, atliekamus paspaudus klaviatūros klavišus, identifikuojant veikėją ir teisingai jį perkeliant“, – tinklaraščio įraše paaiškino DeepMind. „Pavyzdžiui, mūsų modelis (gali) išsiaiškinti, kad rodyklių klavišai turi perkelti robotą, o ne medžius ar debesis.
Dauguma modelių, pvz., Genie 2 – pasaulio modeliai, jei norite – gali imituoti žaidimus ir 3D aplinką, tačiau su artefakcija, nuoseklumu ir haliucinacijomis. Pavyzdžiui, „Decart“ „Minecraft“ simuliatorius „Oasis“ turi mažą skiriamąją gebą ir greitai „pamiršta“ lygių išdėstymą.
Tačiau „Genie 2“ gali prisiminti imituojamos scenos dalis, kurių nematyti, ir tiksliai jas atvaizduoti, kai jos vėl tampa matomos, tvirtina „DeepMind“. (Tai gali padaryti ir „World Labs“ modeliai.)
Dabar su Genie 2 sukurti žaidimai tikrai nebūtų tokie įdomūs. Jei jūsų pažanga būtų ištrinta kiekvieną minutę, bet kas užliptų ant sienos. Taigi „DeepMind“ modelio pozicionavimas yra labiau tyrimų ir kūrybos įrankis – „interaktyvios patirties“ prototipų kūrimo ir AI agentų vertinimo įrankis.
„Dėl „Genie 2“ neplatinamų apibendrinimo galimybių koncepcijos menas ir piešiniai gali būti paversti visiškai interaktyvia aplinka“, – rašė „DeepMind“. „Ir naudodami Genie 2 greitai sukurdami turtingą ir įvairią AI agentų aplinką, mūsų mokslininkai gali sukurti vertinimo užduotis, kurių agentai nematė per mokymus.
DeepMind teigia, kad nors Genie 2 yra ankstyvoje stadijoje, laboratorija mano, kad tai bus pagrindinis komponentas kuriant ateities AI agentus.
„Google“ skyrė vis daugiau išteklių pasaulio modeliams, kurie žada būti kitas didelis dalykas dirbtinio intelekto srityje. Spalio mėn. DeepMind pasamdė Timą Brooksą, kuris vadovavo OpenAI Sora vaizdo generatoriaus kūrimui, dirbti su vaizdo įrašų generavimo technologijomis ir pasaulio simuliatoriais.