Tetheri AI-uuringute rühm on avaldanud TurboQuanti avatud lähtekoodiga tootmisversiooni – meeldejäävuse kokkusurumise algoritmi, mille alguse sai Google Research.
See versioon kuulub QVAC SDK 0.12.0 koosseisu ja on mõeldud sülearvutitele, telefonidele, äärerakendustele ja hajutatud võrkudele. See võimaldab kohalikel AI-mudelitel käivitada pikemaid seansse ilma pilviinfrastruktuuri kasutamiseta.
See tähistab praktilist nihet selle suhtes, kuidas seadmesisene AI haldab mälukirjeldavaid ülesandeid.
Mälu on pikka aega olnud takistuseks võimsate AI-mudelite käivitamisel tarbijaseadmetel. Kui AI-assistent töötleb pikkade dokumentide või vestluste konteksti, salvestatakse see kontekst nii nimetatud KV-vahemällu.
Ligikaudu 262 000 tokeni puhul võib 4B mudeli KV-vahemälu üksnes selle jaoks kasutada umbes 8 GB mälu. Neli samaaegset seanssi võivad selle arvu tõsta 32 GB-ni enne iseenesest mudeli mäluarvestust.
TurboQuant lahendab selle probleemi, vähendades KV-vahemälu kuni viis korda, säilitades samas väljundkvaliteedi peaaegu sama tasemel nagu tavalise (komprimeerimata) mudeli puhul.
Nüüd saab kasutaja küsida sülearvutis töötavalt assistendilt, et see analüüskiks saja leheküljelist õigusdokumenti ilma selle üleslaadimata kaugserverisse.
Üliõpilased, arendajad, ajakirjanikud ja teadlased saavad kõik kasu pikematest ning kontekstirikkamatetest AI-seanssidest oma juba olemasolevates seadmetes.
Kommenteerides laiemat põhjust, miks seda versiooni avaldati, viitas Tetheri tegevjuht Paolo Ardoino uurimuse ja praktilise tarkvara vahelisele lünkle.
„Google’i uuring näitas, et AI-mälu saab kokkusuruda palju tõhusamalt, kui enamik inimesi eeldasid,“ ütles ta. „Meie töö viib selle lähenemise tootmisversioonis tarkvarasse, millega saavad tegelikult töötada arendajad, start-up’id ja kasutajad.“
Tootmisversioon sisaldab täielikku kvantiseerimisvoogu, raamistiku adaptereid, arendajate dokumentatsiooni ja koormusel optimeeritud profiile.
Need komponendid on disainitud reaalseteks keskkondadeks väljaspool hüpermahukaid andmekeskusi, hõlmates piiratud mälu, segatud riistvara ja latentsusele tundlikke deploy-minguid.
TurboQuant on kaasatud QVAC SDK 0.12.0 koosseisu ja integreeritud otse Fabric’i – QVAC-i põhikomponenti.
Fabric sai alguse llama.cpp fork’ist ja on alates sellest kasvanud, hõlmates mitmeid uuringute edusamme. SDK pakub arendajatele ühtset tööriistade, teegite ja käitusaja komponentide komplekti kohalike AI-rakenduste loomiseks.
Start-up’ide ja iseseisvate arendajate jaoks eemaldab see eelduse, et suured AI-tooted nõuavad kalliste GPU-klastrite kasutamist.
Tiimid saavad nüüd disainida pikemaid kontekstiaknasid, suuremaid failikoormusi ja paindlikumat deploy-mingut tarbijaseadmete ja äärerakenduste jaoks. See avab praktilised teejuhised AI-toodete loomiseks ilma ainult pilvitehnoloogia tugita arhitektuurita.
Ardoino käsitleses andmete privaatsuse ja pilveteenuste sõltuvuse küsimusi, rõhutas ta AI-ülesannete hoidmist kohalikes seadmetes.
„Inimestel peaks olema võimalik paluda AI-assistendilt pika dokumendi lugemist või privaatse teabe töötlemist ilma selleta, et iga ülesanne läheks läbi kaugandmekeskuse,“ ütles ta. Selles mõttes annab TurboQuant kohalikule AI-le rohkem operatsioonilist ruumi.
Tetheri strateegia keskendub AI-le, mis töötab lähemal kasutajatele – nii personaalse seadme kui ka hajutatud võrgu tasandil. Ettevõte peab tarkvara tõhusust ja ülekantavust järgmise AI-arenguetapi määravateks teguriteks koos suurtõulistatud arvutusinfrastruktuuriga.
The post Tether Brings Google’s TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices appeared first on Blockonomi.

