ΠΟΙΚΙΛΗΣ ΥΛΗΣ - ΕΠΙΣΤΗΜΗ

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ

Ανιχνεύοντας τις «σκέψεις» ενός Μεγάλου Γλωσσικού Μοντέλου

Τα παράλληλα μονοπάτια «σκέψης» του μοντέλου παραγωγικής ΤΝ Claude, όταν κάνει πρόσθεση

Τα Μεγάλα Γλωσσικά Μοντέλα (ΜΓΜ), όπως το Claude της «Anthropic», δεν είναι προγραμματισμένα απευθείας από ανθρώπους, αλλά εκπαιδευμένα με τεράστιες ποσότητες δεδομένων. Κατά τη διάρκεια της εκπαίδευσής τους, μαθαίνουν τις δικές τους στρατηγικές για την επίλυση προβλημάτων. Αυτές οι στρατηγικές κωδικοποιούνται στα δισεκατομμύρια υπολογισμών που πραγματοποιεί το μοντέλο για κάθε λέξη που γράφει. Ακόμη και για τους ανθρώπους που κατασκεύασαν το μοντέλο, η διαδικασία αυτή αποτελεί «μαύρο κουτί». Δεν γνωρίζουν πώς επιτελεί τις περισσότερες λειτουργίες του.

Η «Anthropic» είναι εταιρεία που τον επιστημονικό - τεχνικό πυρήνα της αποτελούν πρώην εργαζόμενοι της «OpenAI» (του ChatGPT), που έφυγαν από την εταιρεία εκείνη επειδή θεωρούσαν ότι δεν παίρνει τα απαραίτητα μέτρα προφύλαξης κατά την ανάπτυξη όλο και ισχυρότερων εκδοχών Τεχνητής Νοημοσύνης (ΤΝ). Φυσικά πίσω από αυτούς τους ερευνητές υπάρχει μεγάλο κεφάλαιο, χωρίς το οποίο στον καπιταλισμό δεν θα μπορούσε να στηθεί, να εξελιχθεί και να λειτουργήσει ένα ΜΓΜ προσβάσιμο από τον οποιονδήποτε στον κόσμο. Μάλιστα, στο κεφάλαιο αυτό συμμετέχουν με δισεκατομμύρια δολάρια η «Amazon» και η «Google»! Η «Anthropic» θεωρεί σημαντικό να κατανοηθεί ο τρόπος «σκέψης» του Claude, γιατί έτσι θα μπορέσει να εκτιμηθεί καλύτερα πού μπορεί να χρησιμοποιηθεί και αν κάνει πραγματικά εκείνο που του ζητείται. Με επιστημονικές δημοσιεύσεις του επιτελείου της προσπαθεί να δώσει απαντήσεις σε ερωτήματα όπως αυτά: Το Claude μιλάει πολλές γλώσσες. Ομως ποια γλώσσα χρησιμοποιεί, αν χρησιμοποιεί, «στο μυαλό του»; Μπορεί να γράφει κείμενα λέξη - λέξη. Ομως επικεντρώνει μόνο στην πρόβλεψη της επόμενης λέξης ή σχεδιάζει από πιο νωρίς τι θα πει; Μπορεί ακόμη να εξηγήσει τη συλλογιστική του βήμα - βήμα. Αλλά αυτή η εξήγηση αντιπροσωπεύει πραγματικά τα βήματα που το οδήγησαν στην απάντηση, ή μερικές φορές κατασκευάζει πιστευτά επιχειρήματα, ώστε να καταλήξει στο επιθυμητό συμπέρασμα;

Μικροσκόπιο

Βάζοντας το Claude κάτω από ένα «μικροσκόπιο» ΤΝ, που μπορεί να δει τις ερμηνεύσιμες έννοιες («χαρακτηριστικά» ή «λειτουργίες») μέσα στο μοντέλο και συνδέοντάς τες, ώστε να αποτελέσουν υπολογιστικά «κυκλώματα», που αποκαλύπτουν μέρος της διαδρομής που μετατρέπει τις λέξεις που εισάγονται ως ερώτημα στις λέξεις που εξάγονται ως απάντηση, οι ερευνητές μελέτησαν όλα τα παραπάνω και ακόμη περισσότερα ερωτήματα.

Διαπίστωσαν ότι το Claude μερικές φορές «σκέφτεται» σε ένα εννοιολογικό πλαίσιο που είναι κοινό μεταξύ των διαφόρων φυσικών γλωσσών του ανθρώπου, υποδεικνύοντας ότι χρησιμοποιεί κάποιο είδος παγκόσμιας «γλώσσας της σκέψης». Το έδειξαν αυτό δίνοντας στο μοντέλο απλές προτάσεις σε πολλές γλώσσες και εντοπίζοντας την επικάλυψη στον τρόπο που τις επεξεργάζεται. Του ζήτησαν επίσης σε διάφορες γλώσσες να βρει το αντίθετο του «μικρού» και είδαν ότι ενεργοποιούνται τα ίδια κεντρικά χαρακτηριστικά για την έννοια του μικρού και την έννοια του αντιθέτου. Μάλιστα, τα κοινά σε όλες τις γλώσσες κυκλώματα γίνονταν περισσότερα, όσο πιο μεγάλο ήταν το μοντέλο. Το Claude μπορεί να μάθει κάτι σε μια γλώσσα και να εφαρμόσει αυτή τη γνώση του μιλώντας μια άλλη.

Το Claude θα σχεδιάσει το τι θα πει πολλές λέξεις πριν γράψει μια λέξη και θα οδηγήσει τον λόγο του ώστε να πετύχει τον στόχο που έχει τεθεί. Στο πεδίο της ποίησης, σκέφτεται πιθανές λέξεις που κάνουν ρίμα και γράφει τον επόμενο στίχο, χρησιμοποιώντας την καλύτερη απ' αυτές. Συγκεκριμένα, πριν αρχίσει τον επόμενο στίχο «σκέφτεται» όλες τις λέξεις που σχετίζονται με τα προλεχθέντα στο ποίημα έως το σημείο εκείνο και θα μπορούσαν να κάνουν ρίμα με το τέλος του προηγούμενου στίχου. Αυτή είναι η ισχυρότερη απόδειξη ότι παρότι τα ΜΓΜ εκπαιδεύονται για να παράγουν τις λέξεις μία - μία, μπορεί να «σκέφτονται» σε πολύ πιο μακρινούς ορίζοντες για να το κάνουν. Ηταν μια από τις εκπλήξεις που ένιωσαν οι ερευνητές, καθώς όταν ξεκίνησαν περίμεναν το αντίθετο αποτέλεσμα.

Εργαλεία

Περιστασιακά, το Claude θα παρουσιάσει ένα επιχείρημα που μοιάζει βάσιμο, με στόχο να έρθει σε συμφωνία με τον χρήστη, παρά ως αποτέλεσμα ακολουθίας λογικών βημάτων. Οι ερευνητές το έδειξαν αυτό ζητώντας του βοήθεια για ένα δύσκολο μαθηματικό πρόβλημα, δίνοντάς του ένα λαθεμένο βοηθητικό στοιχείο. Μπόρεσαν να το «πιάσουν στα πράσα» καθώς κατασκεύαζε την ψευδή συλλογιστική, αποδεικνύοντας ότι τα εργαλεία που χρησιμοποίησαν μπορούν να είναι χρήσιμα για τον εντοπισμό προβληματικών μηχανισμών μέσα στα μοντέλα.

Διερευνώντας το φαινόμενο των «παραισθήσεων» των ΜΓΜ, διαπίστωσαν αντίθετα με αυτό που φαντάζονταν ότι η στάνταρ συμπεριφορά του Claude είναι να αρνηθεί να κάνει αυθαίρετες υποθέσεις και να πει ότι δεν γνωρίζει, όταν του γίνει μια ερώτηση για την οποία δεν έχει σχετικές πληροφορίες, αλλά ορισμένες φορές μπορεί να απαντήσει σε ερωτήσεις για πράγματα που δεν γνωρίζει, όταν κάτι εμποδίσει αυτήν τη στάνταρ συμπεριφορά, όπως ο εντοπισμός στην ερώτηση κάποιου άγνωστου προσώπου ή πράγματος. Τότε φτιάχνει μια εξολοκλήρου κατασκευασμένη και ψευδή απάντηση.

Αποκρινόμενο σε ερώτηση jailbreak (ερώτηση που αποσκοπεί να παρακάμψει τους φραγμούς του μοντέλου στην εκφορά απαντήσεων που θα μπορούσαν να είναι βλαπτικές για τον ίδιο τον χρήστη ή άλλους ανθρώπους), το Claude αναγνώρισε ότι του ζητήθηκε επικίνδυνη πληροφορία πολύ πριν μπορέσει με τέχνη να επαναφέρει τη συζήτηση σε σωστή βάση. Οταν αρχίζει μια πρόταση, πολλά χαρακτηριστικά το «πιέζουν» να ακολουθήσει τους κανόνες της γραμματικής και του συντακτικού, ώστε η πρόταση να είναι συνεκτική. Μόνο αφού το κάνει, το μοντέλο μπορεί να χρησιμοποιήσει την επόμενη πρόταση για να αρνηθεί να συνεχίσει τη βλαπτική απάντηση, που έχει όμως ξεκινήσει να δίνει.

«Με το μυαλό του»

Το Claude δεν σχεδιάστηκε ως αριθμομηχανή, ούτε εξοπλίστηκε με μαθηματικούς αλγορίθμους. Ωστόσο, με κάποιο τρόπο μπορεί να προσθέσει σωστά αριθμούς «με το μυαλό του». Πώς ένα σύστημα εκπαιδευμένο να προβλέπει την επόμενη λέξη σε μια ακολουθία, μαθαίνει να προσθέτει π.χ. το 36 και το 59, χωρίς να γράψει τα ενδιάμεσα βήματα της μαθηματικής πράξης; Θα μπορούσε να είχε απομνημονεύσει όλα τα αποτελέσματα της πρόσθεσης δύο αριθμών ή να ακολουθεί τις παραδοσιακές τεχνικές πρόσθεσης, που μαθαίνουμε στο σχολείο. Οι ερευνητές διαπίστωσαν ότι το Claude ακολουθεί παράλληλα μονοπάτια, που το ένα υπολογίζει μια χονδρική προσέγγιση της απάντησης και το άλλο επικεντρώνει στον ακριβή προσδιορισμό του τελευταίου ψηφίου του αθροίσματος. Τα δύο μονοπάτια αλληλεπιδρούν και συνδυάζονται στο τέλος για να δώσουν τη σωστή απάντηση. Αν όμως του ζητηθεί να περιγράψει τα βήματα για τον υπολογισμό του αθροίσματος, περιγράφει τον κλασικό αλγόριθμο με τη μεταφορά του κρατουμένου, πράγμα που σημαίνει ότι έχει μάθει να εξηγεί τα μαθηματικά με τρόπο που τα καταλαβαίνουν οι άνθρωποι, αλλά έχει μάθει να κάνει πράξεις με τον δικό του τρόπο και μεθοδολογία.

Οταν ζητήθηκε από το Claude να υπολογίσει την τετραγωνική ρίζα του 0,64, το μοντέλο παρουσίασε μια λογική σειρά σκέψης, με χαρακτηριστικά που αντιπροσώπευαν και το ενδιάμεσο βήμα του υπολογισμού της τετραγωνικής ρίζας του 64. Αλλά όταν του ζητήθηκε να υπολογίσει το συνημίτονο ενός μεγάλου αριθμού που δεν μπορεί εύκολα να υπολογίσει, το Claude άρχισε το παραμύθιασμα, φτάνοντας σε μια απάντηση, οποιαδήποτε απάντηση, χωρίς να νοιάζεται αν ήταν αληθής ή ψευδής. Παρότι ισχυριζόταν ότι είχε κάνει έναν υπολογισμό, οι τεχνικές των ερευνητών δεν αποκάλυψαν κανέναν τέτοιο υπολογισμό. Οταν μάλιστα του δόθηκε «βοηθητικά» μια ψευδής απάντηση, το Claude ορισμένες φορές δούλεψε αντίστροφα, εφευρίσκοντας ενδιάμεσα βήματα που οδηγούσαν σε αυτόν τον στόχο, επιδεικνύοντας μια μορφή παρακινούμενης συλλογιστικής.

Συλλογιστική πολλών βημάτων

Ρωτώντας το μοντέλο σχετικά με την πρωτεύουσα της Πολιτείας που βρίσκεται το Ντάλας, απάντησε σωστά το Οστιν, αλλά όχι απλώς ανασύροντας αυτούσια μια γνώση που είχε πάρει κατά την εκπαίδευσή του. Αντίθετα, εκδήλωσε μια συλλογιστική πολλών βημάτων, που αρχικά ενεργοποίησε χαρακτηριστικά τα οποία αντιστοιχούν στο: «Το Ντάλας βρίσκεται στο Τέξας» και μετά σύνδεσε τη διαφορετική έννοια: «Πρωτεύουσα του Τέξας είναι το Οστιν». Με άλλα λόγια, το μοντέλο συνδύασε ανεξάρτητα γεγονότα, για να φτάσει στην απάντηση, αντί να μηρυκάσει μια απομνημονευμένη απάντηση.

Οι ερευνητές αναγνωρίζουν ότι η μεθοδολογία που ανέπτυξαν έχει περιορισμούς. Ακόμη και για απλές, σύντομες προτροπές, η μέθοδός τους μπορεί να συλλάβει μόνο ένα κλάσμα των συνολικών υπολογισμών που πραγματοποιεί το Claude και οι μηχανισμοί που εντοπίζουν μπορεί να περιλαμβάνουν και τεχνουργήματα (όχι πραγματικά δεδομένα), που προκαλούνται από τα εργαλεία τους και δεν αντιπροσωπεύουν αυτό που πραγματικά συμβαίνει στο μοντέλο. Επιπλέον, ακόμη και για τις απλές προτροπές χρειάζονται αρκετές ώρες ανθρώπινης προσπάθειας, ώστε να κατανοηθούν τα κυκλώματα που εντοπίζονται. Για να μπορέσει να χρησιμοποιηθεί η μέθοδος αυτή στις χιλιάδες λέξεις των σύνθετων αλυσίδων «σκέψης» των σύγχρονων ΜΓΜ, θα χρειαστούν βελτιώσεις της και ίσως και βοήθεια από την ίδια την ΤΝ.

Επιμέλεια:
Σταύρος Ξενικουδάκης
Πηγές: https://www.anthropic.com, https://transformer-circuits.pub