Viena iš plačiausiai naudojamų metodų, padedančių dirbtinio intelekto modelius veiksmingesni, – kvantavimas – turi ribas – ir pramonė gali greitai prie jų artėti.
AI kontekste kvantavimas reiškia bitų – mažiausių vienetų, kuriuos gali apdoroti kompiuteris –, reikalingų informacijai pavaizduoti, skaičiaus sumažinimą. Apsvarstykite šią analogiją: kai kas nors klausia laiko, tikriausiai sakytumėte „vidudienis“, o ne „o dvylika šimtų, viena sekundė ir keturios milisekundės“. Tai yra kvantavimas; abu atsakymai yra teisingi, bet vienas yra šiek tiek tikslesnis. Kiek tikslumo jums iš tikrųjų reikia, priklauso nuo konteksto.
Dirbtinio intelekto modelius sudaro keli komponentai, kuriuos galima kiekybiškai įvertinti – visų pirma parametrai, vidinių kintamųjų modeliai, naudojami prognozėms ar sprendimams priimti. Tai patogu, nes modeliai paleidžiami atlieka milijonus skaičiavimų. Kvantuoti modeliai su mažiau bitų, atspindinčių jų parametrus, yra mažiau reiklūs matematiškai, taigi ir skaičiavimams. (Kad būtų aišku, tai skiriasi nuo „distiliavimo“, kuris yra labiau įtrauktas ir selektyvus parametrų genėjimas.)
Tačiau kvantavimas gali turėti daugiau kompromisų, nei manyta anksčiau.
Nuolat mažėjantis modelis
Remiantis Harvardo, Stenfordo, MIT, Databricks ir Carnegie Mellon mokslininkų atliktu tyrimu, kvantuoti modeliai veikia blogiau, jei originali, nekvantuota modelio versija ilgą laiką buvo apmokyta naudojant daug duomenų. Kitaip tariant, tam tikru momentu gali būti geriau tiesiog išmokyti mažesnį modelį, o ne gaminti didelį.
Tai gali būti bloga žinia dirbtinio intelekto įmonėms, rengiančioms itin didelius modelius (žinoma, kad pagerina atsakymų kokybę), o vėliau juos įvertinančias, kad būtų pigiau aptarnauti.
Poveikis jau pasireiškia. Prieš kelis mėnesius kūrėjai ir akademikai pranešė, kad „Meta's Llama 3“ modelio kvantavimas buvo „labiau kenksmingas“, palyginti su kitais modeliais, galbūt dėl to, kaip jis buvo apmokytas.
„Mano nuomone, pagrindinės sąnaudos kiekvienam dirbtiniu intelektu yra ir toliau bus išvados, o mūsų darbas rodo, kad vienas svarbus būdas jas sumažinti neveiks amžinai“, – Harvardo matematikos studentas ir pirmasis šios studijos autorius Tanishqas Kumaras. popieriaus, sakė „TechCrunch“.
Priešingai populiariems įsitikinimams, dirbtinio intelekto modelio išvados – modelio valdymas, pavyzdžiui, kai ChatGPT atsako į klausimą – dažnai yra brangesnis bendrai nei modelio mokymas. Pavyzdžiui, apsvarstykite, kad „Google“ išleido maždaug 191 mln. USD, kad apmokytų vieną iš savo pavyzdinių „Gemini“ modelių – tai tikrai didelė suma. Tačiau jei bendrovė naudotų modelį, kad sugeneruotų tik 50 žodžių atsakymus į pusę visų „Google“ paieškos užklausų, ji per metus išleistų maždaug 6 mlrd.
Pagrindinės dirbtinio intelekto laboratorijos apėmė didžiulių duomenų rinkinių mokymo modelius, darydamos prielaidą, kad „didinimas“ – padidinus mokymo metu naudojamų duomenų ir skaičiavimų kiekį – AI taps vis pajėgesnis.
Pavyzdžiui, Meta išmokė Lamą 3 ant 15 trilijonų žetonų rinkinio. (Žetonai reiškia neapdorotų duomenų bitus; 1 milijonas žetonų yra maždaug 750 000 žodžių.) Ankstesnės kartos „Llama 2“ buvo išmokyta naudoti „tik“ 2 trilijonus žetonų.
Įrodymai rodo, kad masto didinimas galiausiai sumažina grąžą; Pranešama, kad „Anthropic“ ir „Google“ neseniai parengė didžiulius modelius, kurie neatitiko vidinių etaloninių lūkesčių. Tačiau nėra jokių ženklų, kad pramonė būtų pasirengusi prasmingai pasitraukti nuo šių įsitvirtinusių mastelio keitimo metodų.
Kaip tiksliai, tiksliai?
Taigi, jei laboratorijos nenori apmokyti modelių naudojant mažesnius duomenų rinkinius, ar yra būdas padaryti modelius mažiau pažeidžiamus? galbūt. Kumaras sako, kad jis ir bendraautoriai nustatė, kad „mažo tikslumo“ mokymo modeliai gali padaryti juos tvirtesnius. Truputį pasinerkite į mus.
„Tikslumas“ čia reiškia skaitmenų skaičių, kurį skaitmeninių duomenų tipas gali tiksliai atvaizduoti. Duomenų tipai yra duomenų reikšmių rinkiniai, paprastai nurodomi galimų reikšmių ir leidžiamų operacijų rinkiniu; Pavyzdžiui, duomenų tipas FP8 naudoja tik 8 bitus slankaus kablelio skaičiui pavaizduoti.
Dauguma modelių šiandien yra mokomi 16 bitų arba „pusio tikslumo“ ir „kvantuojami po traukinio“ iki 8 bitų tikslumo. Tam tikri modelio komponentai (pvz., jo parametrai) konvertuojami į mažesnio tikslumo formatą tam tikro tikslumo kaina. Pagalvokite apie tai, tarsi atliktumėte matematiką kelių skaitmenų po kablelio tikslumu, bet tada suapvalintumėte iki artimiausio 10, taip dažnai pateikiant geriausią iš abiejų pasaulių.
Aparatinės įrangos pardavėjai, tokie kaip „Nvidia“, siekia mažesnio kvantinio modelio išvadų tikslumo. Bendrovės naujasis Blackwell lustas palaiko 4 bitų tikslumą, konkrečiai duomenų tipą, vadinamą FP4; „Nvidia“ paskelbė, kad tai yra palaima atminties ir galios ribotiems duomenų centrams.
Tačiau labai mažas kvantavimo tikslumas gali būti nepageidautinas. Anot Kumaro, nebent originalus modelis yra neįtikėtinai didelis savo parametrų skaičiumi, mažesnis nei 7 arba 8 bitų tikslumas gali žymiai pabloginti kokybę.
Jei visa tai atrodo šiek tiek techninė, nesijaudinkite – taip yra. Tačiau svarbiausia yra tai, kad dirbtinio intelekto modeliai nėra iki galo suprantami, o žinomos nuorodos, veikiančios atliekant įvairius skaičiavimus, čia neveikia. Nesakytumėte „vidudienis“, jei kas nors paklaustų, kada pradėjo 100 metrų bėgimą, tiesa? Žinoma, tai nėra taip akivaizdu, bet idėja ta pati:
„Svarbiausia mūsų darbo esmė yra ta, kad yra apribojimų, kurių negalima naiviai apeiti“, – apibendrino Kumaras. „Tikimės, kad mūsų darbas prideda niuansų diskusijoms, kuriose dažnai siekiama vis mažesnio tikslumo numatytųjų mokymų ir išvadų.
Kumaras pripažįsta, kad jo ir jo kolegų tyrimas buvo palyginti nedidelio masto – jie planuoja ateityje jį išbandyti su daugiau modelių. Tačiau jis mano, kad pasitvirtins bent viena įžvalga: nemokamų pietų nėra, kai reikia sumažinti išvadų išlaidas.
„Svarbu bitų tikslumas, ir tai nėra nemokama“, – sakė jis. „Negalite jo sumažinti amžinai, jei modeliai nekentės. Modeliai turi ribotą talpą, todėl, užuot bandę sutalpinti kvadrilijoną žetonų į mažą modelį, mano nuomone, bus įdėta daug daugiau pastangų kruopščiam duomenų tvarkymui ir filtravimui, kad į mažesnius modelius būtų dedami tik aukščiausios kokybės duomenys. Esu nusiteikęs optimistiškai, kad ateityje bus svarbios naujos architektūros, kurios sąmoningai siekia, kad žemo tikslumo treniruotės būtų stabilios.