Didelio galingumo kompiuterių lustų gamintoja „Nvidia“ pirmadienį pristatė naują savo tyrėjų sukurtą dirbtinio intelekto modelį, kuris gali generuoti arba transformuoti bet kokį muzikos, balsų ir garsų derinį, aprašytą su raginimais, naudojant bet kokį teksto ir garso failų derinį.
Naujasis dirbtinio intelekto modelis, pavadintas Fugatto, skirtas Foundational Generative Audio Transformer Opus, gali sukurti muzikos fragmentą, pagrįstą teksto raginimu, pašalinti arba pridėti instrumentus iš esamos dainos, pakeisti balso akcentą ar emociją ir netgi sukurti anksčiau negirdėtus garsus. .
„Nvidia“ teigimu, palaikydamas daugybę garso generavimo ir transformavimo užduočių, „Fugatto“ yra pirmasis pagrindinis generacinis AI modelis, demonstruojantis atsirandančias savybes – galimybes, atsirandančias sąveikaujant įvairiems išlavintiems gebėjimams – ir galimybę derinti laisvos formos instrukcijas.
„Norėjome sukurti modelį, kuris suprastų ir generuotų garsą taip, kaip tai daro žmonės“, – pranešime teigė „Nvidia“ taikomųjų garso tyrimų vadovas Rafaelis Valle.
„Fugatto yra pirmasis mūsų žingsnis į ateitį, kurioje neprižiūrimas daugiafunkcinis mokymasis garso sintezėje ir transformacijoje atsiranda iš duomenų ir modelio masto“, – pridūrė jis.
„Nvidia“ pažymėjo, kad modelis gali susidoroti su užduotimis, kurioms jis nebuvo iš anksto apmokytas, taip pat generuoti garsus, kurie laikui bėgant kinta, pvz., griaustinio Doplerio efektą, kai audra praeina per teritoriją.
Bendrovė pridūrė, kad skirtingai nuo daugelio modelių, kurie gali atkurti tik tuos treniruočių duomenis, su kuriais jie susidūrė, „Fugatto“ leidžia vartotojams sukurti dar niekad nematytus garso peizažus, pvz., perkūniją, kuri auštant sulėtėja su paukščių giedojimu.
Proveržis AI modelis garso transformavimui
„Nvidia“ pristatyta „Fugatto“ žymi didelę pažangą dirbtinio intelekto valdomos garso technologijos srityje“, – pastebėjo Kaveh Vahdat, „RiseOpp“, nacionalinės BRO paslaugų bendrovės, įsikūrusios San Franciske, įkūrėjas ir prezidentas.
„Skirtingai nuo esamų modelių, kurie specializuojasi konkrečiose užduotyse, tokiose kaip muzikos kūrimas, balso sintezė ar garso efektų generavimas, „Fugatto“ siūlo vieningą sistemą, galinčią atlikti įvairias su garsu susijusias funkcijas“, – sakė jis „TechNewsWorld“. „Šis universalumas suteikia jį kaip visapusišką garso sintezės ir transformacijos įrankį.
Vahdat paaiškino, kad „Fugatto“ išsiskiria gebėjimu generuoti ir transformuoti garsą pagal tekstines instrukcijas ir pasirenkamas garso įvestis. „Šis dviejų įvesties metodas leidžia vartotojams sukurti sudėtingas garso išvestis, kurios sklandžiai sulieja įvairius elementus, pavyzdžiui, derinant saksofono melodiją su miaukuojančios katės tembru“, – sakė jis.
Be to, tęsė jis, „Fugatto“ gebėjimas interpoliuoti instrukcijas leidžia niuansuotai valdyti tokius požymius kaip akcentas ir emocijos balso sintezėje, todėl dabartiniuose AI garso įrankiuose paprastai nerandama pritaikymo lygio.
„Fugatto yra nepaprastas žingsnis link dirbtinio intelekto, kuris vienu metu gali valdyti kelis būdus“, – pridūrė Pensilvanijos universiteto inžinerijos profesorius Benjaminas Lee.
„Teksto ir garso įvestis naudojant kartu gali sukurti daug efektyvesnius ar efektyvesnius modelius nei naudojant vieną tekstą“, – sakė jis „TechNewsWorld“. „Technologija įdomi, nes, žvelgiant ne tik į tekstą, ji išplečia mokymo duomenų apimtį ir generuojamųjų AI modelių galimybes.
„Nvidia“ geriausiuose
Markas N. Vena, „SmartTech Research“ Las Vegase prezidentas ir pagrindinis analitikas, tvirtino, kad Fugatto geriausiai atstovauja „Nvidia“.
„Technologija suteikia pažangias AI garso apdorojimo galimybes, leidžiant esamą garsą paversti visiškai naujomis formomis“, – sakė jis „TechNewsWorld“. „Tai apima fortepijono melodijos pavertimą žmogaus balso linija arba tariamų žodžių akcento ir emocinio tono pakeitimą, suteikiant precedento neturintį lankstumą manipuliuojant garsu.
„Skirtingai nei esami dirbtinio intelekto garso įrankiai, Fugatto gali generuoti naujus garsus iš teksto aprašymų, pavyzdžiui, išgirsti trimito garsą kaip lojantį šunį“, – sakė jis. „Šios funkcijos suteikia muzikos, filmų ir žaidimų kūrėjams naujoviškus garso dizaino ir garso redagavimo įrankius.
„Fugatto“ nagrinėja garsą holistiškai – apima garso efektus, muziką, balsą, beveik bet kokio tipo garsą, įskaitant garsus, kurie anksčiau nebuvo girdėti – ir tiksliai, pridūrė Ross Rubin, pagrindinis „Reticle Research“, vartotojų technologijų konsultacinės įmonės Naujajame mieste, analitikas. Jorko miestas.
Jis paminėjo „Suno“ – paslaugos, kuri dainoms generuoti naudoja dirbtinį intelektą, pavyzdį. „Jie ką tik išleido naują versiją, kurioje patobulintas generuotų žmonių balsų skambesys ir kiti dalykai, tačiau ji neleidžia atlikti tikslių, kūrybingų pakeitimų, kuriuos leidžia Fugatto, pvz., pridėti naujų instrumentų prie mišinio, pakeisti nuotaiką nuo linksmos. į liūdną arba perkeliant dainą iš minoro į mažorį“, – sakė jis „TechNewsWorld“.
„Jo supratimas apie garso pasaulį ir jo siūlomas lankstumas viršija kaukėms būdingus variklius, kuriuos matėme, pavyzdžiui, žmogaus balso generavimui ar dainos generavimui“, – sakė jis.
Atveria duris kūrybai
Vahdatas atkreipė dėmesį, kad Fugatto gali būti naudingas tiek reklamuojant, tiek mokantis kalbų. Jis pažymėjo, kad agentūros gali sukurti pritaikytą garso turinį, atitinkantį prekės ženklo tapatybę, įskaitant įgarsinimą su konkrečiais akcentais ar emociniais tonais.
Tuo pačiu metu, mokantis kalbų, edukacinėse platformose bus galima sukurti personalizuotą garso medžiagą, pavyzdžiui, dialogus įvairiais akcentais ar emociniais kontekstais, kurie padės išmokti kalbą.
„Fugatto technologija atveria duris įvairioms pritaikymoms kūrybinėse industrijose“, – teigė Vena. „Filmų kūrėjai ir žaidimų kūrėjai gali jį naudoti kurdami unikalius garso peizažus, pavyzdžiui, kasdienius garsus paversdami fantastiškais ar įtraukiančiais efektais“, – sakė jis. „Tai taip pat turi potencialą individualizuotiems garso potyriams virtualioje realybėje, pagalbinėse technologijose ir švietime, pritaikant garsus pagal konkrečius emocinius tonus ar vartotojo pageidavimus.
„Muzikos kūrime“, – pridūrė jis, „ji gali pakeisti instrumentus ar vokalinius stilius ir tyrinėti naujoviškas kompozicijas“.
Tačiau norint pasiekti geresnių muzikinių rezultatų, gali prireikti tolesnio tobulėjimo. „Visi šie rezultatai yra nereikšmingi, o kai kurie išliko ilgiau – ir dar geriau“, – pastebėjo Dennis Bathory-Kitsz, muzikantas ir kompozitorius iš Northfield Falls, Vt.
„Balso izoliacija buvo gremėzdiška ir nemuzikali“, – sakė jis „TechNewsWorld“. „Papildomi instrumentai taip pat buvo nereikšmingi, o dauguma transformacijų buvo bespalvės. Vienintelis privalumas yra tai, kad tai nereikalauja ypatingo mokymosi, todėl DI naudotojo muzikalumo ugdymas bus minimalus.
„Tai gali paskatinti kai kuriuos naujus panaudojimo būdus – tikri muzikantai jau yra nuostabiai išradingi – bet jei kūrėjai neturės geresnių muzikinių dalykų, rezultatai bus liūdni“, – sakė jis. „Jie bus muzikiniai dalykai, kurie prisijungs prie vaizdinio ir žodinio AI.
AGI Stand-In
Kadangi dirbtinis bendrasis intelektas (AGI) vis dar labai toli, Fugatto gali būti AGI modeliavimo modelis, kuris galiausiai siekia atkartoti arba pranokti žmogaus pažintinius gebėjimus atliekant įvairias užduotis.
„Fugatto yra dalis sprendimo, kuris naudoja generatyvųjį AI kartu su kitais AI įrankiais, kad būtų sukurtas į AGI panašus sprendimas“, – aiškino Robas Enderle, Enderle Group, konsultacinių paslaugų įmonės Bend, Ore, prezidentas ir pagrindinis analitikas.
„Kol pradėsime dirbti AGI“, – sakė jis „TechNewsWorld“, „šis metodas bus dominuojantis būdas sukurti išsamesnius AI projektus, kurių kokybė ir susidomėjimas bus daug aukštesnės“.