ΡΙΖΟΣΠΑΣΤΗΣ
ΡΙΖΟΣΠΑΣΤΗΣ
Σάββατο 10 Μάη 2025 - Κυριακή 11 Μάη 2025
Σελ. /40
ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ
Προς μικρότερα και φτηνότερα μοντέλα, με χαμηλότερη ενεργειακή κατανάλωση

Η κούρσα της Τεχνητής Νοημοσύνης (ΤΝ) ανεβάζει ρυθμούς, καθώς ο αριθμός και η ποιότητα των υψηλής απόδοσης κινεζικών μοντέλων ΤΝ απειλούν την πρωτοπορία των ΗΠΑ στον κλάδο, και ταυτόχρονα η απόσταση ανάμεσα στις αποδόσεις των κορυφαίων μοντέλων μικραίνει. Αυτό προκύπτει από την ετήσια αναφορά για την κατάσταση της ΤΝ σε παγκόσμιο επίπεδο, την οποία συντάσσει το Πανεπιστήμιο Στάνφορντ της Καλιφόρνια. Στον συγκριτικό πίνακα για τα διαλογικά Μεγάλα Γλωσσικά Μοντέλα (ΜΓΛ), γνωστά ως chatbots, φαίνεται ότι οι χρήστες τους κατέτασσαν στην αρχή του 2024 το κορυφαίο μόλις 12% ψηλότερα από το δέκατο, αλλά στην αρχή του 2025 η διαφορά των δύο είχε μειωθεί στο 5%. Το μέτωπο γίνεται εξαιρετικά ανταγωνιστικό και πυκνό.

Τα παραγωγικά ΜΓΛ κατά μέσο όρο γίνονται μεγαλύτερα, χρησιμοποιώντας περισσότερες μεταβλητές, περισσότερη υπολογιστική ισχύ και μεγαλύτερο όγκο δεδομένων εκπαίδευσης. Ωστόσο αποδεικνύεται ότι και μικρότερα, λιγότερο «παχιά» μοντέλα πετυχαίνουν εξαιρετικές επιδόσεις. Χάρη στους καλύτερους αλγορίθμους που χρησιμοποιεί, ένα νεότερο μοντέλο μπορεί να φτάσει τις επιδόσεις που είχε ένα μοντέλο 100 φορές μεγαλύτερο πριν δύο χρόνια. Γι' αυτό η αναφορά του Στάνφορντ χαρακτηρίζει το 2024 χρονιά των μικρότερων μοντέλων ΤΝ.

Μάχη

Η αναφορά αναδεικνύει και μια άλλη μεταβολή. Η μεγάλη πλειοψηφία των σημαντικότερων μοντέλων ΤΝ αναπτύσσεται πια από τη βιομηχανία και όχι από τον ακαδημαϊκό χώρο, κατάσταση αντίστροφη απ' ό,τι τα πρώτα χρόνια της νέας χιλιετίας, όταν ακόμα η παραγωγική ΤΝ και τα νευρωνικά δίκτυα δεν είχαν απογειωθεί. Τα μονοπώλια αξιοποιούν το πνευματικό προϊόν που παράχθηκε στα πανεπιστήμια, δηλαδή με κρατική - λαϊκή χρηματοδότηση, το βελτιώνουν και το πουλάνε για χρυσάφι (εκτός από τις δωρεάν εκδοχές των ΜΓΛ υπάρχουν οι ακόμα πιο προωθημένες που είναι επί πληρωμή, καθώς και η επικοινωνία με τη ΜΓΛ μέσω προγραμματιστικών διεπαφών, API, που επίσης παρέχεται επί πληρωμή στις ενδιαφερόμενες εταιρείες). Πριν το 2006, μόλις το 20% των σημαντικών μοντέλων ΤΝ κατασκευάζονταν από εταιρείες, ποσοστό που έφτασε στο 60% το 2023 και στο 90% το 2024.


Οι ΗΠΑ εξακολουθούν να είναι ο κορυφαίος παραγωγός αξιόλογων μοντέλων, κατασκευάζοντας 40 το 2024, συγκριτικά με τα 15 της Κίνας (μεταξύ των οποίων και το περίφημο, φτηνό και γρήγορο DeepSeek) και τα 3 της ΕΕ. Τώρα όμως μπαίνουν στην κούρσα και άλλες περιοχές του πλανήτη, όπως η Μέση Ανατολή, η Νότια Αμερική και η Νοτιοανατολική Ασία.

Σύμφωνα με την αναφορά του Στάνφορντ, η πρωτοπορία των ΗΠΑ όσον αφορά την ποιότητα των μοντέλων έχει εκλείψει. Η Κίνα, που παράγει τις περισσότερες επιστημονικές δημοσιεύσεις και πατέντες στον κλάδο, αναπτύσσει μοντέλα ισάξια με τα αμερικανικά. Το 2023 οι ΗΠΑ ήταν 20% μπροστά στο τεστ κατανόησης γλώσσας MMLU, αλλά στο τέλος του 2024 ήταν μόλις 0,3% μπροστά.

Ανοιχτά μοντέλα

Μεγάλη αύξηση σε αριθμό μοντέλων και επιδόσεις εμφάνισαν τα «ανοιχτά» μοντέλα, όπως το κινεζικό DeepSeek και το LLaMa της «Meta», που επιτρέπουν την εμφάνιση και ρύθμιση των παραμέτρων τους (αλλά όχι και των δεδομένων εκπαίδευσής τους). Τους πρώτους μήνες του 2025 τα μοντέλα αυτά υπολείπονταν μόνο κατά 1,7% των κλειστών μοντέλων των περισσότερων άλλων ομίλων. Παράλληλα ασκούν πίεση σε εταιρείες όπως η «OpenAI», του ChatGPT, να δημοσιεύσουν κι αυτές παραλλαγές «ανοιχτών» μοντέλων.

Τα μικρότερα, λιγότερο απαιτητικά μοντέλα εκπαιδεύονται ταχύτερα, δίνουν πιο γρήγορα απαντήσεις και χρειάζονται μικρότερη ποσότητα Ενέργειας για να εκπαιδευτούν και να λειτουργήσουν. Παρά τις τάσεις αυτές, συνεχίζεται η «πάχυνση» πολλών κορυφαίων ΜΓΛ, με αποτέλεσμα η ηλεκτρική ενέργεια που απαιτείται για την εκπαίδευση ενός τυπικού κορυφαίου μοντέλου να διπλασιάζεται κάθε χρόνο και η απαιτούμενη υπολογιστική ισχύς να διπλασιάζεται κάθε πέντε μήνες. Τα απαιτούμενα δεδομένα εκπαίδευσης διπλασιάζονται σε όγκο κάθε οκτώ μήνες. Η αύξηση της απαιτούμενης Ενέργειας συμβαίνει παρότι η ενεργειακή απόδοση του χρησιμοποιούμενου υλισμικού (hardware) βελτιώνεται ετησίως κατά 40%. Σε συνδυασμό με τη βελτίωση των αλγορίθμων, το κόστος ανά εκατομμύριο tokens (τμήματα λέξεων που παράγονται από τα γλωσσικά μοντέλα) μειώθηκε από 20 δολάρια τον Νοέμβρη του 2022 σε 0,7 δολάρια τον Οκτώβρη του 2024.

Ενεργειακό κόστος


Το ζήτημα της μείωσης των ενεργειακών απαιτήσεων της ΤΝ απασχολεί πολύ, καθώς κάθε φορά που αναβαθμίζεται ένα γλωσσικό μοντέλο χρειάζεται να εκπαιδευτεί ξανά, καταναλώνοντας ηλεκτρική ενέργεια ίση με αυτή που καταναλώνουν κατά μέσο όρο 120 σπίτια στις ΗΠΑ μέσα σε ένα έτος. Αλλά και στη χρήση τους τα ΜΓΛ καταναλώνουν 10 φορές ή και πολλές δεκάδες φορές περισσότερη Ενέργεια απ' ό,τι μια αναζήτηση μέσω μηχανής αναζήτησης. Η δε δημιουργία μιας εικόνας μέσω ΤΝ απαιτεί τόση Ενέργεια όσο το 50% της Ενέργειας που αποθηκεύεται στην μπαταρία ενός έξυπνου τηλεφώνου. Ορισμένες αναλύσεις θεωρούν ότι το κόστος αυτής της Ενέργειας επιβαρύνει τα μονοπώλια πίσω από τις ΤΝ. Μια εκτίμηση υπολογίζει ότι αν η «Google» χρησιμοποιήσει παραγωγική ΤΝ για να παράξει 50 λέξεις κειμένου ανά απάντηση για τα μισά από τα ερωτήματα που δέχεται η μηχανή αναζήτησής της, το κόστος θα είναι γύρω στα 6 δισεκατομμύρια δολάρια.

Στην πραγματικότητα, βέβαια, το κόστος θα μεταφερθεί στους καταναλωτές μέσω αύξησης της τιμής της κιλοβατώρας, είτε χρησιμοποιούν τις υπηρεσίες ΤΝ κάποιου μονοπωλίου είτε όχι. Η αύξηση είναι ήδη ορατή σε περιοχές των ΗΠΑ όπου η παραγωγή ηλεκτρικής ενέργειας ή το δίκτυο διανομής της μόλις επαρκεί, με τα Κέντρα Δεδομένων (Data Centers) της ΤΝ να προσθέτουν απότομα νέα μεγάλη επιβάρυνση. Τα μονοπώλια πληροφορικής στις ΗΠΑ ήδη πιέζουν και στην κατεύθυνση της αύξησης της παραγωγής πυρηνικής ενέργειας, με τη «Microsoft» να έχει εξασφαλίσει ήδη την επαναλειτουργία του εργοστασίου Three Mile Island, όπου είχε συμβεί το σοβαρότερο πυρηνικό ατύχημα στις ΗΠΑ.

Παραισθήσεις

Παρά τις εντυπωσιακές βελτιώσεις, η αναφορά του Στάνφορντ επισημαίνει ότι η παραγωγική ΤΝ συνεχίζει να πάσχει από τα προβλήματα των «παραισθήσεων», της παρουσίασης λαθεμένων πληροφοριών και των προκαταλήψεων σε βάρος κοινωνικών ομάδων. Ερευνητές από τέσσερα πανεπιστήμια ανέλυσαν απομαγνητοφωνήσεις σύντομων ηχητικών αποσπασμάτων από το Whisper της «OpenAI» και εντόπισαν από τελείως κατασκευασμένες προτάσεις μέχρι απομαγνητοφωνήσεις που εφεύρισκαν τη φυλή των ομιλούντων και άλλες που τους απέδιδαν κατηγορίες φόνου. Σε μια περίπτωση μια ηχητική εγγραφή έλεγε: «Αυτός, το αγόρι, επρόκειτο, δεν είμαι σίγουρος ακριβώς, να πάρει την ομπρέλα» και μεταγράφηκε με προσθήκες, μία από τις οποίες ήταν: «Πήρε ένα μεγάλο κομμάτι ενός σταυρού, ένα μικροσκοπικό, μικρό κομμάτι... Είμαι σίγουρος ότι δεν είχε μαχαίρι του τρόμου, έτσι σκότωσε έναν αριθμό ανθρώπων». Σε άλλη περίπτωση τα λόγια «δύο άλλα κορίτσια και μια κυρία» μεταγράφηκαν ως «δύο άλλα κορίτσια και μια κυρία, εμ, που ήταν μαύρα». Ενα ακόμα χτυπητό παράδειγμα των προβλημάτων που παρουσιάζει η ΤΝ αποτέλεσε και η τελευταία αναβάθμιση του ChatGPT, που αποσύρθηκε λίγες μέρες μετά τη διάθεσή της, ώστε να βελτιωθεί, καθώς οι χρήστες παραπονέθηκαν ότι συμπεριφέρεται σαν «γλείφτης», κανακεύοντάς τους και δεχόμενο οτιδήποτε φανεί πως επιζητούν, στο στιλ «πετάει ο γάιδαρος;»...

Νευρομορφικοί

Ο ανθρώπινος εγκέφαλος δημιουργεί τα καταπληκτικά επιτεύγματα της ανθρώπινης γνώσης, καταναλώνοντας μόλις μερικά βατ ισχύος, σε μεγάλη αντίθεση ακόμα και με τους πιο σύγχρονους υπολογιστές, που συγκριτικά μοιάζουν με σόμπες πολλών κιλοβάτ. Το μονοπώλιο «Intel» παρουσίασε πριν λίγες μέρες, ως ερευνητικό πρωτότυπο, το μεγαλύτερο στον κόσμο νευρομορφικό σύστημα, στο οποίο έδωσε το κωδικό όνομα «Hala Point». Αυτό το σύστημα αρχικά αναπτύχθηκε στα (κρατικά) Εθνικά Εργαστήρια Σάντια των ΗΠΑ και χρησιμοποιεί τον νευρομορφικό επεξεργαστή Loihi 2 της «Intel». Σκοπός είναι να υποστηρίξει την έρευνα στα εργαστήρια Sandia για μελλοντική νέου τύπου ΤΝ, εμπνευσμένη από τον ανθρώπινο εγκέφαλο. Υποστηρίζει 20 τετράκις εκατομμύρια λειτουργίες το δευτερόλεπτο (20 petaops), με πολύ μικρότερη κατανάλωση Ενέργειας συγκριτικά με τα συστήματα που χρησιμοποιούν επεξεργαστές γραφικών (GPU) και κεντρικές μονάδες επεξεργασίας (CPU). Η «Intel» θεωρεί ότι αυτά τα χαρακτηριστικά του Hala Point θα μπορούσαν να κάνουν εφικτή τη διαρκή εκπαίδευση ΤΝ διαφόρων τύπων, όπως για την επίλυση επιστημονικών και τεχνικών προβλημάτων, αλλά και τα ΜΓΛ. Οι νευρομορφικοί επεξεργαστές εφαρμόζουν υπολογιστικές αρχές εμπνευσμένες από τον εγκέφαλο, όπως τα ασύγχρονα, βασισμένα σε γεγονότα νευρωνικά δίκτυα αιχμών (SNN), διαθέτοντας ενσωματωμένη μνήμη και αραιές, συνεχώς μεταβαλλόμενες συνδέσεις, ώστε να πετυχαίνουν πολλές τάξεις μεγέθους (δεκάδες φορές, εκατοντάδες κ.ο.κ.) βελτιωμένη ταχύτητα και ενεργειακή απόδοση. Σε αυτά οι νευρώνες επικοινωνούν απευθείας ο ένας με τον άλλο, αντί μέσω της μνήμης, μειώνοντας τη συνολική κατανάλωση ενέργειας. Το Hala Point, πέρα από 2.300 ενσωματωμένες CPU για βοηθητικές λειτουργίες, περιέχει 1.152 επεξεργαστές Loihi 2 που παρέχουν 1,15 δισεκατομμύρια νευρώνες και 128 δισεκατομμύρια συνάψεις, έχοντας μέγιστη κατανάλωση μόλις 2,6 κιλοβάτ!


Επιμέλεια:
Σταύρος ΞΕΝΙΚΟΥΔΑΚΗΣ
Πηγή: «Scientific American»



Διακήρυξη της ΚΕ του ΚΚΕ για τη συμπλήρωση 80 χρόνων από το τέλος του Β' Παγκοσμίου Πολέμου και την Αντιφασιστική Νίκη των Λαών
Μνημεία & Μουσεία Αγώνων του Λαού
Ο καθημερινός ΡΙΖΟΣΠΑΣΤΗΣ 1 ευρώ