
Nors didelių kalbų AI modeliai ir toliau patenka į antraštes, mažų kalbų modeliai yra ta vieta, kur vyksta veiksmas. Bent jau taip, kaip teigiama neseniai paskelbtame jos mokslininkų grupės dokumente, „Meta“, atrodo, lažinosi.
Dideli kalbų modeliai, tokie kaip ChatGPT, Gemini ir Llama, gali naudoti milijardus, net trilijonus parametrų, kad gautų rezultatus. Dėl šių modelių dydžio jie per dideli, kad būtų galima naudoti mobiliuosiuose įrenginiuose. Taigi, atlikdami tyrimą „Meta“ mokslininkai pažymėjo, kad didėja veiksmingų didelių kalbų modelių poreikis mobiliuosiuose įrenginiuose – poreikis kyla dėl didėjančių debesų sąnaudų ir delsos problemų.
Savo tyrimuose mokslininkai paaiškino, kaip jie sukūrė aukštos kokybės didelių kalbų modelius su mažiau nei milijardu parametrų, kurie, jų nuomone, yra tinkamo dydžio mobiliesiems diegimui.
Priešingai vyraujančiam įsitikinimui, kuriame pabrėžiamas esminis duomenų ir parametrų kiekio vaidmuo nustatant modelio kokybę, mokslininkai pasiekė rezultatų naudodami savo mažos kalbos modelį, kai kuriose srityse palyginamus su Meta's Llama LLM.
„Yra vyraujanti paradigma, kad „kuo didesnis, tuo geriau“, bet tai rodo, kad tai iš tikrųjų priklauso nuo parametrų naudojimo“, – sakė Nikas DeGiacomo, „Bucephalus“, dirbtiniu intelektu varomos el. prekybos tiekimo grandinės platformos, esančios Niujorke, generalinis direktorius.
„Tai atveria kelią platesniam įrenginio AI pritaikymui“, – sakė jis „TechNewsWorld“.
Esminis žingsnis
„Meta“ tyrimas yra reikšmingas, nes jis meta iššūkį dabartinei debesyse pagrįsto dirbtinio intelekto normai, kuri dažnai pastebima, kad duomenys sutrinka tolimuose duomenų centruose, aiškino San Francisko rizikos kapitalo įmonės „FutureFund“ generalinis direktorius ir įkūrėjas Darianas Shimy.
„Įrengdama dirbtinio intelekto apdorojimą pačiame įrenginyje, Meta keičia scenarijų – potencialiai sumažina anglies pėdsaką, susijusį su duomenų perdavimu ir apdorojimu didžiuliuose, daug energijos naudojančiuose duomenų centruose, o įrenginiais paremtą AI tampa pagrindiniu technologijų ekosistemos žaidėju. Jis sakė „TechNewsWorld“.
„Šis tyrimas yra pirmasis tokio masto išsamus ir viešai bendras darbas“, – pridūrė Yashin Manraj, „Pvotal Technologies“ generalinis direktorius.
„Tai labai svarbus pirmasis žingsnis siekiant suderinto SLM-LLM metodo, kai kūrėjai gali rasti tinkamą pusiausvyrą tarp debesies ir įrenginio duomenų apdorojimo“, – sakė jis „TechNewsWorld“. „Tai sudaro pagrindą, kur AI pagrįstų programų pažadai gali pasiekti tokį palaikymo, automatizavimo ir pagalbos lygį, kuris buvo parduodamas pastaraisiais metais, tačiau trūko inžinerinių pajėgumų, kad galėtų paremti šias vizijas.
Meta mokslininkai taip pat žengė reikšmingą žingsnį mažindami kalbos modelį. „Jie siūlo modelį, susitraukiantį pagal dydį, kad jis būtų labiau prieinamas nešiojamiesiems įrenginiams, girdimiesiems įrenginiams ir mobiliesiems telefonams“, – sakė Nishant Neekhra, puslaidininkių bendrovės „Skyworks Solutions“, puslaidininkių įmonės Westlake Village mieste, Kalifornijoje, vyresnysis direktorius Nishant Neekhra.
„Jie pristato visiškai naują AI taikomųjų programų rinkinį, kartu suteikdami naujų būdų dirbtiniam intelektui sąveikauti realiame pasaulyje“, – sakė jis „TechNewsWorld“. „Susitraukdami jie taip pat išsprendžia didelį augimo iššūkį, kamuojančią LLM, ty jų gebėjimą diegti kraštutiniuose įrenginiuose.
Didelis poveikis sveikatos priežiūrai
Viena sritis, kurioje maži kalbos modeliai gali turėti reikšmingą poveikį, yra medicina.
„Tyrimai žada atskleisti generatyvaus dirbtinio intelekto potencialą programoms, kuriose naudojami mobilieji įrenginiai, kurie šiandieninėje sveikatos priežiūros aplinkoje yra plačiai paplitę nuotoliniam stebėjimui ir biometriniams vertinimams“, – Danielle Kelvas, pasaulinės medicinos programinės įrangos kūrimo įmonės IT Medical patarėja. pasakojo „TechNewsWorld“.
Įrodydami, kad veiksmingi SLM gali turėti mažiau nei milijardą parametrų ir vis tiek atlikti tam tikras užduotis yra panašūs į didesnius modelius, tęsė ji, tyrėjai atveria duris plačiai taikyti AI kasdienėje sveikatos stebėsenoje ir individualizuotoje pacientų priežiūroje.
Kelvas paaiškino, kad naudojant SLM taip pat galima užtikrinti, kad jautrūs sveikatos duomenys gali būti saugiai tvarkomi įrenginyje, o tai padidina pacientų privatumą. Jie taip pat gali palengvinti sveikatos stebėjimą ir intervenciją realiuoju laiku, o tai labai svarbu pacientams, sergantiems lėtinėmis ligomis arba tiems, kuriems reikalinga nuolatinė priežiūra.
Ji pridūrė, kad modeliai taip pat galėtų sumažinti technologines ir finansines kliūtis diegti dirbtinį intelektą sveikatos priežiūros įstaigose, o tai gali demokratizuoti pažangias sveikatos stebėjimo technologijas platesnėms gyventojų grupėms.
Pramonės tendencijų atspindėjimas
„Meta“ dėmesys mažiems mobiliesiems įrenginiams skirtiems dirbtinio intelekto modeliams atspindi platesnę pramonės tendenciją optimizuoti AI siekiant efektyvumo ir prieinamumo“, – paaiškino Caridad Muñoz, CUNY LaGuardia bendruomenės koledžo naujosios medijos technologijų profesorius. „Šis pokytis ne tik sprendžia praktinius iššūkius, bet ir atitinka didėjantį susirūpinimą dėl didelio masto AI operacijų poveikio aplinkai“, – sakė ji „TechNewsWorld“.
„Remdama mažesnius, efektyvesnius modelius, Meta sukuria precedentą tvariam ir įtraukiam AI vystymuisi“, – pridūrė Muñozas.
Mažų kalbų modeliai taip pat tinka krašto kompiuterijos tendencijai, kurios tikslas – priartinti AI galimybes prie vartotojų. „Didieji OpenAI, Anthropic ir kitų kalbų modeliai dažnai yra pertekliniai – „kai turi tik plaktuką, viskas atrodo kaip vinis“, – sakė DeGiacomo.
„Specializuoti, suderinti modeliai gali būti efektyvesni ir ekonomiškesni atliekant konkrečias užduotis“, – pažymėjo jis. „Daugeliui mobiliųjų programų nereikia pažangiausio AI. Norint išsiųsti tekstinį pranešimą, nereikia superkompiuterio.
„Šis metodas leidžia įrenginiui sutelkti dėmesį į maršruto valdymą tarp to, ką galima atsakyti naudojant SLM, ir specializuotų naudojimo atvejų, panašiai kaip bendrosios praktikos gydytojų ir specialistų santykiai”, – pridūrė jis.
Didelis poveikis pasauliniam ryšiui
Shimy tvirtino, kad SLM poveikis pasauliniam ryšiui yra didžiulis.
„Kadangi įrenginyje esantis dirbtinis intelektas tampa vis pajėgesnis, nuolatinio interneto ryšio būtinybė mažėja, o tai gali smarkiai pakeisti technologijų aplinką regionuose, kuriuose interneto prieiga yra nenuosekli arba brangi“, – pastebėjo jis. „Tai galėtų demokratizuoti prieigą prie pažangių technologijų, todėl pažangiausius AI įrankius galima pasiekti įvairiose pasaulio rinkose.
Nors Meta vadovauja SLM kūrimui, Manraj pažymėjo, kad besivystančios šalys agresyviai stebi situaciją, siekdamos kontroliuoti savo AI kūrimo išlaidas. „Panašu, kad Kinija, Rusija ir Iranas labai domėjosi galimybe atidėti skaičiavimus vietiniuose įrenginiuose, ypač kai pažangiausioms dirbtinio intelekto aparatūros lustams taikomas embargas arba jie nėra lengvai pasiekiami“, – sakė jis.
„Nesitikime, kad tai bus per vieną naktį ar drastiškas pokytis, – prognozavo jis, – nes sudėtingoms, keliomis kalbomis veikiančioms užklausoms vis tiek reikės debesies pagrindu veikiančių LLM, kad galutiniams vartotojams būtų suteikta pažangiausia vertė. Tačiau šis perėjimas prie „paskutinės mylios“ modelio įrenginyje gali padėti sumažinti LLM naštą atliekant mažesnes užduotis, sumažinti grįžtamojo ryšio kilpas ir praturtinti vietinius duomenis.
„Galiausiai, – tęsė jis, – galutinis vartotojas bus aiškiai laimėtojas, nes tai leistų sukurti naujos kartos galimybes jų įrenginiuose ir perspektyviau pertvarkyti priekines programas ir tai, kaip žmonės bendrauja su pasauliu.”
„Nors įprasti įtariamieji skatina naujoves šiame sektoriuje, galinčią turėti daug žadantį poveikį kiekvieno kasdieniam gyvenimui“, – pridūrė jis, „SLM taip pat gali būti Trojos arklys, kuris, turėdamas modelius, suteikia naujo lygio įsiskverbimą į mūsų kasdienį gyvenimą. galintis rinkti duomenis ir metaduomenis precedento neturinčiu lygiu. Tikimės, kad naudodamiesi tinkamomis apsaugos priemonėmis galėsime nukreipti šias pastangas į produktyvų rezultatą.