Η Ομάδα Έρευνας Τεχνητής Νοημοσύνης της Tether κυκλοφόρησε μια ανοιχτού κώδικα έκδοση παραγωγής του TurboQuant, ενός αλγορίθμου συμπίεσης μνήμης που αναπτύχθηκε αρχικά από την Google Research.
Η κυκλοφορία αποτελεί μέρος του QVAC SDK 0.12.0 και απευθύνεται σε φορητούς υπολογιστές, τηλέφωνα, συσκευές edge και αποκεντρωμένα δίκτυα. Επιτρέπει στα τοπικά μοντέλα τεχνητής νοημοσύνης να διαχειρίζονται μεγαλύτερες συνεδρίες χωρίς να βασίζονται σε υποδομή cloud.
Αυτό σηματοδοτεί μια πρακτική αλλαγή στον τρόπο που η τεχνητή νοημοσύνη on-device διαχειρίζεται εργασίες εντατικής χρήσης μνήμης.
Η μνήμη αποτελούσε εδώ και καιρό εμπόδιο για την εκτέλεση ικανών μοντέλων τεχνητής νοημοσύνης σε καταναλωτικό υλικό. Όταν ένας βοηθός τεχνητής νοημοσύνης επεξεργάζεται ένα μακρύ έγγραφο ή συνομιλία, αποθηκεύει αυτό το πλαίσιο σε αυτό που ονομάζεται KV cache.
Σε περίπου 262.000 tokens, το KV cache για ένα μοντέλο 4B μπορεί να καταναλώσει περίπου 8 GB μνήμης μόνο του. Τέσσερις ταυτόχρονες συνεδρίες μπορούν να ωθήσουν αυτό το νούμερο στα 32 GB πριν ακόμα υπολογιστεί το ίδιο το μοντέλο.
Το TurboQuant αντιμετωπίζει αυτό συμπιέζοντας το KV cache έως πέντε φορές, διατηρώντας παράλληλα την ποιότητα εξόδου κοντά σε ένα ασυμπίεστο μοντέλο.
Ένας χρήστης μπορεί πλέον να ζητήσει από έναν βοηθό σε φορητό υπολογιστή να αναλύσει ένα νομικό έγγραφο εκατό σελίδων χωρίς να το ανεβάσει σε απομακρυσμένο διακομιστή.
Φοιτητές, προγραμματιστές, δημοσιογράφοι και ερευνητές μπορούν όλοι να επωφεληθούν από μεγαλύτερες, πιο context-aware συνεδρίες τεχνητής νοημοσύνης σε συσκευές που ήδη διαθέτουν.
Μιλώντας για τους ευρύτερους λόγους πίσω από την κυκλοφορία, ο CEO της Tether, Paolo Ardoino, επεσήμανε το χάσμα μεταξύ έρευνας και πρακτικού λογισμικού.
"Η έρευνα της Google έδειξε ότι η μνήμη τεχνητής νοημοσύνης μπορούσε να συμπιεστεί πολύ πιο αποδοτικά από ό,τι υπέθεταν οι περισσότεροι," είπε. "Η δουλειά μας φέρνει αυτή την ανακάλυψη σε λογισμικό παραγωγής που προγραμματιστές, startups και χρήστες μπορούν πραγματικά να αξιοποιήσουν."
Η έκδοση παραγωγής περιλαμβάνει μια πλήρη διοχέτευση κβαντοποίησης, προσαρμογείς πλαισίου, τεκμηρίωση για προγραμματιστές και προφίλ βελτιστοποιημένα για φόρτο εργασίας.
Αυτά τα στοιχεία έχουν σχεδιαστεί για πραγματικά περιβάλλοντα εκτός κέντρων δεδομένων υπερκλίμακας, καλύπτοντας περιορισμένη μνήμη, μικτό υλικό και αναπτύξεις ευαίσθητες στην καθυστέρηση.
Το TurboQuant διατίθεται ως μέρος του QVAC SDK 0.12.0, ενσωματωμένο απευθείας στο Fabric, ένα βασικό στοιχείο της στοίβας QVAC.
Το Fabric ξεκίνησε ως fork του llama.cpp και έχει από τότε εξελιχθεί ώστε να ενσωματώνει πολλαπλές ερευνητικές εξελίξεις. Το SDK παρέχει στους προγραμματιστές ένα ενοποιημένο σύνολο εργαλείων, βιβλιοθηκών και στοιχείων runtime για τη δημιουργία τοπικών εφαρμογών τεχνητής νοημοσύνης.
Για startups και ανεξάρτητους προγραμματιστές, αυτό εξαλείφει την παραδοχή ότι τα μεγάλα προϊόντα τεχνητής νοημοσύνης απαιτούν ακριβά clusters GPU.
Οι ομάδες μπορούν πλέον να σχεδιάζουν για μεγαλύτερα παράθυρα πλαισίου, μεγαλύτερους φόρτους εργασίας αρχείων και ευέλικτη ανάπτυξη σε καταναλωτικό και edge υλικό. Αυτό ανοίγει πρακτικές διαδρομές για τη δημιουργία προϊόντων τεχνητής νοημοσύνης χωρίς αρχιτεκτονική αποκλειστικά cloud.
Αντιμετωπίζοντας ανησυχίες σχετικά με την προστασία δεδομένων και την εξάρτηση από το cloud, ο Ardoino υποστήριξε τη διατήρηση των εργασιών τεχνητής νοημοσύνης σε τοπικές συσκευές.
"Οι άνθρωποι πρέπει να μπορούν να ζητούν από έναν βοηθό τεχνητής νοημοσύνης να διαβάσει ένα μακρύ έγγραφο ή να επεξεργαστεί ιδιωτικές πληροφορίες χωρίς κάθε εργασία να αναγκάζεται να περνά από ένα απομακρυσμένο κέντρο δεδομένων," είπε. Το TurboQuant, με αυτή την έννοια, δίνει στην τοπική τεχνητή νοημοσύνη περισσότερο επιχειρησιακό χώρο.
Η στρατηγική της Tether επικεντρώνεται σε τεχνητή νοημοσύνη που λειτουργεί πιο κοντά στους χρήστες, σε προσωπικές συσκευές και αποκεντρωμένα δίκτυα. Η εταιρεία βλέπει την αποδοτικότητα και φορητότητα λογισμικού ως καθοριστικούς παράγοντες στην επόμενη φάση ανάπτυξης της τεχνητής νοημοσύνης, παράλληλα με την υποδομή υπολογισμού μεγάλης κλίμακας.
Το άρθρο Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices εμφανίστηκε πρώτα στο Blockonomi.


