ΠΟΙΚΙΛΗΣ ΥΛΗΣ - ΕΠΙΣΤΗΜΗ

ΜΕΓΑΛΟ ΓΛΩΣΣΙΚΟ ΜΟΝΤΕΛΟ ΚΙΜΙ Κ2

Νέα κινεζική Τεχνητή Νοημοσύνη υψηλής απόδοσης και χαμηλού κόστους

Ενα ακόμα πλήγμα στο μοντέλο ανάπτυξης της Τεχνητής Νοημοσύνης που εφαρμόζεται στις ΗΠΑ φαίνεται να επιφέρει η νέα Τεχνητή Νοημοσύνη (ΤΝ) Kimi K2, την οποία αποκάλυψε πριν δυο βδομάδες η εταιρεία «Moonshot AI», που από πίσω της βρίσκεται το κινεζικό μονοπώλιο «Alibaba». Ακολουθώντας τα χνάρια του μοντέλου DeepSeek R1, που τον Γενάρη προκάλεσε ισχυρό κλονισμό παγκοσμίως σε όλους τους ενδιαφερόμενους, το Kimi K2 αποτελεί ένα Μεγάλο Γλωσσικό Μοντέλο (ΜΓΜ) εκπαιδευμένο με τρισεκατομμύρια «λέξεις» (tokens), που όμως σε αντίθεση με τα αμερικανικά και άλλα ΜΓΜ είναι ανοιχτού κώδικα, πλήρως διαφανές, και έχει κόστος λειτουργίας πολύ μικρότερο από τα καλύτερα απ' αυτά.

Το Kimi K2 χρεώνει (όχι στην ελεύθερα προσβάσιμη από τον καθένα μορφή του chatbot, αλλά στην αξιοποιήσιμη από εταιρείες εκδοχή του) 0,15 - 0,60 ευρώ ανά εκατομμύριο tokens εισόδου και 2,50 ευρώ ανά εκατ. tokens εξόδου. Συγκριτικά, το GPT-4.1 της «OpenAI» χρεώνει 0,50 - 2,00 και 8,00 ευρώ αντίστοιχα, ενώ το Claude Opus 4 της «Anthropic» 1,50 - 18,75 και 75,00 ευρώ, δηλαδή 30 φορές περισσότερο!

Μία μέρα μετά την ανακοίνωση του Kimi K2 στις 11 Ιούλη, ο Σαμ Αλτμαν της «OpenAI» έκανε γνωστό ότι αναβάλλεται εκ νέου η παρουσίαση του πρώτου ΜΓΜ ανοιχτού κώδικα της εταιρείας του, λόγω ανησυχιών για θέματα ασφάλειας.

Ανοιχτός κώδικας

Διαγράμματα επιδόσεων του Kimi K2 συγκριτικά με τα έως τώρα καλύτερα Μεγάλα Γλωσσικά Μοντέλα. Στο πάνω μέρος σε τεστ ως πρακτορική ΤΝ και για την παραγωγή κώδικα προγραμματισμού, κάτω αριστερά στη χρήση εργαλείων από την ΤΝ και κάτω δεξιά στα Μαθηματικά, στις Θετικές Επιστήμες και στη Μηχανική. Σε δύο έχει τις κορυφαίες επιδόσεις και στα υπόλοιπα βρίσκεται πολύ κοντά στον πρώτο

Το ότι το Kimi K2 είναι ανοιχτού κώδικα σημαίνει πως ο καθένας μπορεί να το προσαρμόσει στις ανάγκες του, σε αντίθεση με τα περισσότερα αμερικανικά ΜΓΜ, που οι κατασκευαστές τους δεν αποκαλύπτουν ούτε πώς δημιουργήθηκαν, ούτε τα βάρη που χρησιμοποιούν στους κόμβους του νευρωνικού δικτύου. Το ότι είναι πολύ οικονομικότερο σημαίνει ότι οι μικρές εταιρείες δεν χρειάζεται να πληρώνουν ένα σωρό λεφτά στην «OpenAI», στην «Google» ή στην «Anthropic», αλλά μπορούν να δίνουν πολύ λιγότερα στη «Moonshot AI» - «Alibaba» για να πετύχουν ανάλογο αποτέλεσμα, καθώς οι συγκριτικές δοκιμές με βάση τα καθιερωμένα τεστ επιδόσεων της ΤΝ φέρνουν το Kimi K2 είτε στην κορυφή είτε στη δεύτερη θέση, συνήθως πίσω από το Claude Opus 4 της «Anthropic». Είναι τόσο μικρότερες οι απαιτήσεις του εκπαιδευμένου Kimi K2 σε υλισμικό (hardware), που μπορεί κανείς να το «τρέξει» ακόμα και σε έναν ισχυρό προσωπικό υπολογιστή με μια επίσης ισχυρή τελευταίας τεχνολογίας κάρτα γραφικών, που διαθέτει αρκετή μνήμη! Μια λίγο μεγαλύτερη επένδυση σε hardware με στόχο την αυτόνομη λειτουργία του Kimi K2 σε μια εταιρεία με 2-3 προγραμματιστές θα μπορούσε σύντομα να αποσβεστεί, χωρίς να χρειάζεται να καταβάλλονται κάθε χρόνο σημαντικά ποσά για την ενοικίαση των ίδιων υπηρεσιών από ένα μεγάλο μονοπώλιο.

Τεχνητές Νοημοσύνες όπως Kimi K2 και DeepSeek R1 αμφισβητούν την ανάγκη τεράστιων επενδύσεων για την αγορά μεγάλων ποσοτήτων των πανάκριβων καρτών γραφικών (GPU) τελευταίας τεχνολογίας της αμερικανικής εταιρείας «Nvidia», που είναι απαραίτητες για τη γρήγορη λειτουργία των εκπαιδευμένων ΜΓΜ τύπου ChatGPT, Gemini, Claude, Perplexity, και οπωσδήποτε για την εκπαίδευσή τους. Ακριβώς επειδή οι κάρτες αυτές είναι απαραίτητες για την εκπαίδευση των συγκεκριμένων μεγάλων εκδοχών παραγωγικής ΤΝ, οι πωλήσεις της «Nvidia» προς το παρόν καλά κρατούν. Παρ' όλα αυτά, το μοντέλο που λέει ότι «ισχυρότερη ΤΝ χρειάζεται ισχυρότερους επεξεργαστές γραφικών» αμφισβητείται όλο και περισσότερο. Το ίδιο και το μοντέλο που λέει ότι μετρημένα στα δάχτυλα αμερικανικά μονοπώλια θα μπορούν να πωλούν υπηρεσίες παραγωγικής ΤΝ σε ακριβή τιμή, κρατώντας και όλα τα μυστικά της για τον εαυτό τους.

Απάντηση

Η Κίνα, έχοντας εδώ και χρόνια υποστεί το εμπάργκο των ΗΠΑ στις κατηγορίες υλισμικού τελευταίας τεχνολογίας που σχετίζονται με την παραπέρα ανάπτυξη της ΤΝ, προσπαθεί αφενός να κατασκευάσει η ίδια τα απαραίτητα εξαρτήματα, αφετέρου να απαντήσει πιο άμεσα, διερευνώντας πιο καινοτόμες και ριζοσπαστικές λύσεις στον τομέα του λογισμικού. Η επιλογή ανοιχτού κώδικα είναι φανερό ότι δεν εκφράζει ακριβώς τα συμφέροντα των ίδιων των κινεζικών μονοπωλίων, όσο την πρόθεση της κινεζικής κυβέρνησης να χτυπήσει με αυτόν τον τρόπο τα αμερικανικά μονοπώλια, στην πάλη για την πρωτοκαθεδρία ανάμεσα σε ΗΠΑ και Κίνα στον κρίσιμο τομέα της ΤΝ. Το Kimi K2 είναι αραιό (sparse) μοντέλο συγκριτικά με τα πυκνά (dense) αμερικανικά μοντέλα, αλλά χρησιμοποιεί και αυτό 32 δισ. ενεργές παραμέτρους από το σύνολο των 1 τρισ. παραμέτρων που διαθέτει, παρέχοντας ανάλογη ευελιξία και δυνατότητες. Επιπλέον, επιτρέπει 131.072 tokens εισόδου, δηλαδή μπορεί να τροφοδοτηθεί μονομιάς με ένα μεγάλου μεγέθους έγγραφο, ώστε να το επεξεργαστεί και να βγάλει τα ζητούμενα αποτελέσματα.

Το Kimi K2 αξιοποιώντας την τεχνική της ενισχυτικής μάθησης (reinforement learning) χρησιμοποιεί για τη «μετεκπαίδευσή» του δεδομένα που προκύπτουν από εσωτερικές αλληλεπιδράσεις, για τις οποίες δέχεται μια «ανταμοιβή», χωρίς να στηρίζεται αποκλειστικά στην τροφοδοσία χαρακτηρισμένων δεδομένων, που δεν μπορεί πια να παρακολουθήσει την πρόοδο της υπολογιστικής ισχύος. Οντας μετεξέλιξη της προηγούμενης ΤΝ της «Moonshot AI», του Moonlight, αξιοποιεί τον βελτιστοποιητή Muon για την εκπαίδευση ΜΓΜ, για τον οποίο η εταιρεία θεωρεί ότι αποδεδειγμένα υπερτερεί του ευρέως χρησιμοποιούμενου βελτιστοποιητή AdamW. Για να αντιμετωπίσει τη μεγαλύτερη αστάθεια αυτού του Muon, η «Moonshot» ανέπτυξε μια νέα εκδοχή του, τον MuonClip. Η σταθερότητα της καμπύλης του MuonClip έχει προκαλέσει μεγάλη έκπληξη στους ειδικούς, καθώς η προεκπαίδευση του Kimi K2 με 15,5 τρισ. tokens δεν προκάλεσε ούτε μία έξαρση (απομάκρυνση από την καμπύλη εκπαίδευσης), πράγμα που κάνει τον αλγόριθμο MuonClip συμπαγή λύση για τη μεγάλης κλίμακας εκπαίδευσης ΜΓΜ.

Πράκτορες και εργαλεία

Το Kimi K2 είναι πολυπρακτορικό (multi agentic) μοντέλο του τύπου Mixture-of-Experts (μείγμα ειδικών). Στο chatbot του Kimi K2 (www.kimi.com) η agentic λειτουργία ενεργοποιείται με το κουμπί Researcher. Πετυχαίνει την αποδοτικότητά του χρησιμοποιώντας κάθε φορά μέρος από τους πράκτορες (agents) στους οποίους είναι διαμοιρασμένο το νευρωνικό του δίκτυο. Ετσι, το οποιοδήποτε ερώτημα ή καθήκον που τίθεται από τον χρήστη δεν απασχολεί ολόκληρο το νευρωνικό δίκτυο, αλλά μόνο τα τμήματά του που είναι αρμοδιότερα για την επεξεργασία μιας καλής απάντησης ή λύσης. Με αυτόν τον τρόπο το Kimi K2 πετυχαίνει να είναι αποδοτικό, ακολουθώντας μάλιστα την παγκόσμια κατεύθυνση προς γενικής χρήσης ΜΓΜ που μπορούν να χρησιμοποιήσουν εργαλεία είτε για την αναζήτηση στο διαδίκτυο, είτε για την πρόσβαση σε κάποια βάση δεδομένων, τοπικό σύστημα αρχείων, δημιουργία βίντεο κ.ο.κ. Η χρήση τέτοιων εργαλείων από τους πράκτορες της παραγωγικής ΤΝ προτυποποιείται με τη χρήση του Model Context Protocol (MCP), που επιτρέπει σε οποιαδήποτε ΤΝ μιλάει αυτό το πρωτόκολλο να χρησιμοποιήσει οποιοδήποτε εργαλείο που επίσης «μιλάει» την ίδια διάλεκτο, χωρίς η ΤΝ να γνωρίζει τις λεπτομέρειες του τρόπου με τον οποίο το εργαλείο κάνει τη δουλειά του. Ετσι οι ΤΝ δεν χρειάζεται να προσαρμόζονται για κάθε ειδική λειτουργία εργαλειακής φύσης και μπορούν πιο εύκολα να αλληλεπιδράσουν με τον κόσμο, είτε μέσω του διαδικτύου είτε απευθείας μέσω φυσικών συσκευών συνδεδεμένων με αυτές.

Τα πολυπρακτορικά μοντέλα διαθέτουν έναν συντονιστικό πράκτορα που αυτόνομα «σπάει» την εργασία προς επιτέλεση σε μικρότερες, και μερικούς εξειδικευμένους πράκτορες που πραγματοποιούν τις επιμέρους λειτουργίες. Μοιάζει με την ιεραρχική ανθρώπινη οργάνωση της δουλειάς, όπου υπάρχουν ένας υπεύθυνος και ορισμένοι ειδικοί που αναλαμβάνουν επιμέρους πλευρές της επιθυμητής εργασίας, επιστρέφοντας στον συντονιστή τα αποτελέσματα της δουλειάς τους. Καθένας από τους ειδικούς πράκτορες μπορεί να χρησιμοποιεί ένα ή περισσότερα εργαλεία, χωρίς να χρειάζεται να πρέπει να προσαρμοστεί για να μπορέσει να τα αξιοποιήσει, εφόσον τόσο αυτά όσο και εκείνος επικοινωνούν μέσω MCP.

Διευκολύνσεις

Για να διευκολύνει την εγκατάλειψη των αμερικανικών ΜΓΜ και τη δική του υιοθέτηση από όσο γίνεται περισσότερες εταιρείες και όσο γίνεται πιο γρήγορα, το Kimi K2 υποστηρίζει εξαρχής τόσο τη διεπαφή προγραμματισμού εφαρμογών (API) της «Anthropic» όσο και της «OpenAI». Αυτό σημαίνει ότι γίνεται εξαιρετικά απλή η εναλλαγή της χρησιμοποιούμενης ΤΝ από εφαρμογές που είχαν κατασκευαστεί για να συνεργάζονται με το Claude ή το ChatGPT. Εκεί που υστερεί ακόμα το Kimi K2 - αλλά η «Moonshot» λέει ότι σύντομα θα έχει απάντηση - είναι η λειτουργία επεξήγησης του τρόπου «σκέψης» του μοντέλου και η δυνατότητα επεξεργασίας εικόνων. Επίσης, η απόδοσή του προς το παρόν πέφτει όταν χρησιμοποιούνται τα εργαλεία της πολυπρακτορικής εκδοχής του. Η απόδοση του Kimi K2 στο κοινό ως ανοιχτού κώδικα επιτρέπει στη «Moonshot» να αξιοποιήσει χωρίς κόστος τυχόν βελτιώσεις τις οποίες θα κάνουν προγραμματιστές από όλο τον κόσμο.

Η εξέλιξη στον τομέα της ΤΝ και ειδικότερα της παραγωγικής ΤΝ είναι συνεχής όσον αφορά την αποδοτικότητα και τους αναγκαίους πόρους για τη χρήση των εκπαιδευμένων μοντέλων, καθώς αποτελεί έναν κρίσιμο τομέα της διαπάλης για την πρωτοκαθεδρία ανάμεσα στις ΗΠΑ και στην Κίνα, ευρύτερα ανάμεσα στον ευρωατλαντικό και στον υπό διαμόρφωση ευρασιατικό ιμπεριαλιστικό πόλο. Διαπάλης που έχει πάρει και τη μορφή στρατιωτικής σύγκρουσης σε πολλά σημεία στον κόσμο, προς το παρόν κυρίως έμμεσης. Σε άλλους τομείς όμως, όπως η ΤΝ, τα βέλη είναι άμεσα από τον έναν στον άλλον.

Επιμέλεια:
Σταύρος ΞΕΝΙΚΟΥΔΑΚΗΣ
Πηγές: https://moonshotai.github.io, www.moonshot.ai, www.cnbc.com, https://github.com/MoonshotAI/Kimi-K2