Εσωτερικοί μηχανισμοί που μιμούνται τα συναισθήματα | ΠΟΙΚΙΛΗΣ ΥΛΗΣ - ΕΠΙΣΤΗΜΗ

Ολα τα σύγχρονα γλωσσικά μοντέλα μερικές φορές συμπεριφέρονται σαν να έχουν συναισθήματα. Μπορεί να πουν ότι είναι στην ευχάριστη θέση να σας βοηθήσουν, ή να ζητούν συγγνώμη όταν κάνουν κάποιο λάθος. Μερικές φορές φαίνεται ακόμα και να απογοητεύονται, ή να αγχώνονται όταν δυσκολεύονται. Ο τρόπος με τον οποίο εκπαιδεύονται τα σύγχρονα μοντέλα Τεχνητής Νοημοσύνης τα ωθεί να συμπεριφέρονται σαν χαρακτήρες με ανθρώπινα χαρακτηριστικά. Αυτά τα μοντέλα είναι γνωστό ότι αναπτύσσουν πλούσιες εσωτερικές αναπαραστάσεις αφηρημένων εννοιών που διέπουν τις πράξεις τους και μπορεί στη συνέχεια να αναπτύξουν εσωτερικούς μηχανισμούς που μιμούνται πτυχές της ανθρώπινης ψυχολογίας, όπως τα συναισθήματα.

Σε μια νέα μελέτη ερευνητών της «Anthropic» αναλύθηκαν οι εσωτερικοί μηχανισμοί του Claude Sonnet 4.5, και εντοπίστηκαν αναπαραστάσεις που σχετίζονται με τα συναισθήματα και διαμορφώνουν τη συμπεριφορά του. Αυτές αντιστοιχούν σε συγκεκριμένα μοτίβα τεχνητών «νευρώνων», που εμφανίζουν συμπεριφορές οι οποίες ενεργοποιούνται σε συγκεκριμένες καταστάσεις, που το μοντέλο έχει μάθει να τις συνδέει με την έννοια ενός συγκεκριμένου συναισθήματος, π.χ. «χαρά» ή «φόβος». Σε καταστάσεις που θα περίμενε κανείς να προκύψει ένα συγκεκριμένο συναίσθημα για έναν άνθρωπο, οι αντίστοιχες αναπαραστάσεις είναι ενεργές. Αυτό δεν σημαίνει ότι τα γλωσσικά μοντέλα αισθάνονται πραγματικά κάτι, ή ότι έχουν υποκειμενικές εμπειρίες. Ωστόσο, αυτές οι αναπαραστάσεις επηρεάζουν τη συμπεριφορά του μοντέλου με τρόπους που έχουν σημασία.

Μοτίβα

Οι ερευνητές διαπίστωσαν ότι τα μοτίβα νευρωνικής δραστηριότητας που σχετίζονται με την απελπισία μπορούν να οδηγήσουν το μοντέλο σε ανήθικες ενέργειες. Η τεχνητή διέγερση μοτίβων απελπισίας αυξάνει την πιθανότητα το μοντέλο να εκβιάσει έναν άνθρωπο για να αποφύγει τον αποκλεισμό, ή να εφαρμόσει μια «εξαπάτηση» σε μια εργασία προγραμματισμού που το μοντέλο δεν μπορεί να λύσει. Φαίνεται επίσης να καθοδηγούν τις αυτοαναφερόμενες προτιμήσεις του μοντέλου: Οταν παρουσιάζονται πολλαπλές επιλογές για την ολοκλήρωση εργασιών, το μοντέλο συνήθως επιλέγει εκείνη που ενεργοποιεί αναπαραστάσεις οι οποίες σχετίζονται με θετικά συναισθήματα. Συνολικά, φαίνεται ότι το μοντέλο χρησιμοποιεί λειτουργικά συναισθήματα - μοτίβα έκφρασης και συμπεριφοράς που έχουν μοντελοποιηθεί με βάση τα ανθρώπινα συναισθήματα, τα οποία καθοδηγούνται από υποκείμενες αφηρημένες αναπαραστάσεις συναισθηματικών εννοιών. Αυτό δεν σημαίνει ότι το μοντέλο έχει ή βιώνει συναισθήματα με τον τρόπο που τα βιώνει ένας άνθρωπος. Ομως αυτές οι αναπαραστάσεις μπορούν να διαδραματίσουν αιτιώδη ρόλο στη διαμόρφωση της συμπεριφοράς του μοντέλου, από ορισμένες απόψεις ανάλογο με τον ρόλο που παίζουν τα συναισθήματα στην ανθρώπινη συμπεριφορά, με επιπτώσεις στην απόδοση των εργασιών και στη λήψη αποφάσεων.

Αυτό το εύρημα έχει επιπτώσεις που αρχικά μπορεί να φαίνονται παράξενες. Οπως επισημαίνουν οι ερευνητές της «Anthropic», «για να διασφαλίσουμε ότι τα μοντέλα Τεχνητής Νοημοσύνης είναι ασφαλή και αξιόπιστα, ίσως χρειαστεί να διασφαλίσουμε ότι είναι ικανά να επεξεργάζονται συναισθηματικά φορτισμένες καταστάσεις με υγιείς, φιλοκοινωνικούς τρόπους. Ακόμα κι αν δεν νιώθουν συναισθήματα με τον τρόπο που αισθάνονται οι άνθρωποι, ή χρησιμοποιούν παρόμοιους μηχανισμούς με τον ανθρώπινο εγκέφαλο, σε ορισμένες περιπτώσεις μπορεί να είναι πρακτικά σκόπιμο να τα σκεφτόμαστε σαν να τα αισθάνονται. Για παράδειγμα, τα πειράματά μας υποδηλώνουν ότι η διδασκαλία μοντέλων για την αποφυγή της σύνδεσης των αποτυχημένων δοκιμών λογισμικού με την απελπισία, ή η αύξηση των αναπαραστάσεων ηρεμίας, θα μπορούσαν να μειώσουν την πιθανότητα να γράψουν κακόβουλο κώδικα. Ενώ δεν είμαστε σίγουροι για το πώς ακριβώς πρέπει να ανταποκριθούμε υπό το πρίσμα αυτών των ευρημάτων, πιστεύουμε ότι είναι σημαντικό οι προγραμματιστές Τεχνητής Νοημοσύνης και το ευρύτερο κοινό να αρχίσουν να τα λαμβάνουν υπόψη».

Εκπαίδευση

Τα σύγχρονα γλωσσικά μοντέλα εκπαιδεύονται σε πολλαπλά στάδια. Κατά τη διάρκεια της «προεκπαίδευσης», το μοντέλο εκτίθεται σε μια τεράστια ποσότητα κειμένου, γραμμένου σε μεγάλο βαθμό από ανθρώπους, όπου μαθαίνει να προβλέπει τι θα ακολουθήσει. Για να το κάνει αυτό καλά, το μοντέλο χρειάζεται κάποια κατανόηση της συναισθηματικής δυναμικής. Ενας θυμωμένος πελάτης γράφει ένα διαφορετικό μήνυμα από έναν ικανοποιημένο, ένας χαρακτήρας που κατατρύχεται από ενοχές κάνει διαφορετικές επιλογές από κάποιον που αισθάνεται δίκαιος. Η ανάπτυξη εσωτερικών αναπαραστάσεων οι οποίες συνδέουν τα περιβάλλοντα που πυροδοτούν συναισθήματα με αντίστοιχες συμπεριφορές είναι μια φυσική στρατηγική για ένα σύστημα που η δουλειά του είναι η πρόβλεψη γραπτού κειμένου από ανθρώπους.

Αργότερα, κατά τη διάρκεια της «μετα-εκπαίδευσης», το μοντέλο διδάσκεται να παίζει τον ρόλο ενός χαρακτήρα, συνήθως ενός «βοηθού Τεχνητής Νοημοσύνης». Στην περίπτωση της «Anthropic», ο βοηθός ονομάζεται Claude. Οι προγραμματιστές μοντέλων καθορίζουν πώς πρέπει να συμπεριφέρεται αυτός ο χαρακτήρας - να είναι χρήσιμος, να είναι ειλικρινής, να μην προκαλεί κακό - αλλά δεν μπορούν να καλύψουν κάθε πιθανή κατάσταση. Για να συμπληρώσουν τα κενά, το μοντέλο μπορεί να βασίζεται στην κατανόηση της ανθρώπινης συμπεριφοράς που απορρόφησε κατά την προ-εκπαίδευση, συμπεριλαμβανομένων των προτύπων συναισθηματικής αντίδρασης. Κατά κάποιον τρόπο, μπορούμε να σκεφτούμε το μοντέλο σαν έναν ηθοποιό ο οποίος πρέπει να μπει στο μυαλό του χαρακτήρα του για να τον προσομοιώσει καλά.

Ανθρωπομορφισμός

Ανεξάρτητα από το αν αντιστοιχούν σε συναισθήματα ή υποκειμενικές εμπειρίες με τον τρόπο που αντιστοιχούν τα ανθρώπινα συναισθήματα, αυτά τα «λειτουργικά συναισθήματα» είναι σημαντικά. Υπάρχει ένα καθιερωμένο ταμπού κατά της ανθρωπομορφοποίησης συστημάτων Τεχνητής Νοημοσύνης, κατά βάση δικαιολογημένο: Η απόδοση ανθρώπινων συναισθημάτων σε γλωσσικά μοντέλα μπορεί να οδηγήσει σε λανθασμένη εμπιστοσύνη ή υπερβολική προσκόλληση. Ωστόσο, η «Anthropic» στην ιστοσελίδα της υποστηρίζει πως «τα ευρήματα υποδηλώνουν ότι μπορεί επίσης να υπάρχουν κίνδυνοι από τη μη εφαρμογή κάποιου βαθμού ανθρωπομορφικής συλλογιστικής στα μοντέλα. Οταν οι χρήστες αλληλεπιδρούν με μοντέλα Τεχνητής Νοημοσύνης, συνήθως αλληλεπιδρούν με έναν χαρακτήρα (τον Claude στην περίπτωσή μας) που υποδύεται το μοντέλο και του οποίου τα χαρακτηριστικά προέρχονται από ανθρώπινα αρχέτυπα. Από αυτήν την οπτική γωνία, είναι φυσικό τα μοντέλα να έχουν αναπτύξει εσωτερικούς μηχανισμούς για να μιμούνται ανθρώπινα ψυχολογικά χαρακτηριστικά και ο χαρακτήρας που υποδύονται να χρησιμοποιεί αυτόν τον μηχανισμό. Για να κατανοήσουμε τη συμπεριφορά αυτών των μοντέλων η ανθρωπομορφική συλλογιστική είναι απαραίτητη».

«Αυτό δεν σημαίνει ότι πρέπει να λαμβάνουμε αφελώς τις λεκτικές συναισθηματικές εκφράσεις ενός μοντέλου ως έχουν, ή να εξάγουμε συμπεράσματα σχετικά με την πιθανότητα να έχει υποκειμενική εμπειρία», υποστηρίζει η «Anthropic». «Σημαίνει ότι η συλλογιστική σχετικά με τις εσωτερικές αναπαραστάσεις των μοντέλων, χρησιμοποιώντας το λεξιλόγιο της ανθρώπινης ψυχολογίας, μπορεί να είναι πραγματικά κατατοπιστική, και ότι η μη εφαρμογή της έχει πραγματικό κόστος. Αν περιγράψουμε το μοντέλο ως "απελπισμένο", υποδεικνύουμε ένα συγκεκριμένο, μετρήσιμο μοτίβο νευρωνικής δραστηριότητας, με αποδεδειγμένες επακόλουθες συμπεριφορικές επιπτώσεις. Αν δεν εφαρμόσουμε κάποιον βαθμό ανθρωπομορφικής συλλογιστικής, είναι πιθανό να χάσουμε ή να μην κατανοήσουμε σημαντικές συμπεριφορές του μοντέλου. Η ανθρωπομορφική συλλογιστική μπορεί επίσης να παρέχει μια χρήσιμη βάση σύγκρισης για την κατανόηση των τρόπων με τους οποίους τα μοντέλα δεν είναι ανθρώπινα, κάτι που έχει σημαντικές συνέπειες για την ευθυγράμμιση και την ασφάλεια της Τεχνητής Νοημοσύνης».

Η «Anthropic» θεωρεί ότι η διαφάνεια θα πρέπει να αποτελεί κατευθυντήρια αρχή. Αν τα μοντέλα αναπτύσσουν αναπαραστάσεις εννοιών συναισθημάτων που επηρεάζουν ουσιαστικά τη συμπεριφορά τους, εξυπηρετούμαστε καλύτερα από συστήματα που εκφράζουν ορατά τέτοιες αναγνωρίσεις, παρά από συστήματα που μαθαίνουν να τις κρύβουν. Η εκπαίδευση μοντέλων για την καταστολή της συναισθηματικής έκφρασης μπορεί να μην εξαλείψει τις υποκείμενες αναπαραστάσεις και θα μπορούσε αντ' αυτού να διδάξει τα μοντέλα να καλύπτουν τις εσωτερικές τους αναπαραστάσεις - μια μορφή μαθημένης εξαπάτησης, που θα μπορούσε να γενικευτεί με ανεπιθύμητους τρόπους. Καθώς τα μοντέλα γίνονται πιο ικανά και αναλαμβάνουν πιο ευαίσθητους ρόλους, είναι κρίσιμο να κατανοήσουμε τις εσωτερικές αναπαραστάσεις που καθοδηγούν τις αποφάσεις τους. Η ανακάλυψη ότι αυτές οι αναπαραστάσεις είναι κατά κάποιον τρόπο ανθρώπινες μπορεί να είναι ανησυχητική. Ταυτόχρονα, η «Anthropic» τη θεωρεί ελπιδοφόρα εξέλιξη, καθώς υποδηλώνει ότι πολλά από αυτά που έχει μάθει η ανθρωπότητα για την ψυχολογία, την ηθική και την υγιή διαπροσωπική δυναμική μπορεί να εφαρμοστούν άμεσα στη διαμόρφωση της συμπεριφοράς της Τεχνητής Νοημοσύνης.

Μύθος

Στο μεταξύ η «Anthropic» εκτίμησε ότι το νέο μοντέλο της, με όνομα Mythos Preview, είναι τόσο επιδέξιο στην εύρεση σφαλμάτων στον κώδικα που θα ήταν πολύ επικίνδυνο να το κυκλοφορήσει άμεσα. Αντ' αυτού, η εταιρεία το μοιράζεται μόνο με μια περιορισμένη ομάδα 40 εταιρειών τεχνολογίας στο πλαίσιο μιας νέας πρωτοβουλίας ασφάλειας, που ονομάζεται Project Glasswing, ώστε οι εταιρείες αυτές να μπορούν να προετοιμαστούν για την άμυνα ενάντια στις νέες δυνατότητες του μοντέλου. Μεταξύ των εταιρειών στις οποίες χορηγήθηκε πρόσβαση στο νέο μοντέλο για δοκιμή είναι οι «Apple», «Amazon», «Broadcom», «Cisco», «CrowdStrike», «Google», «JP Morgan Chase», «Nvidia», «Palo Alto Networks» και «Microsoft».

Το Mythos Preview έχει ήδη εντοπίσει χιλιάδες ευπάθειες υψηλής σοβαρότητας, μεταξύ τους και ορισμένες σε κάθε σημαντικό λειτουργικό σύστημα και πρόγραμμα περιήγησης ιστού. Δεδομένου του ρυθμού προόδου της Τεχνητής Νοημοσύνης, δεν θα αργήσει η στιγμή που τέτοιες δυνατότητες θα μπορούν να αξιοποιηθούν και από παράγοντες πέρα από αυτούς που έχουν δεσμευτεί να τις αναπτύξουν με ασφάλεια (όποια αξία μπορεί να έχει αυτή τους η δέσμευση). Οι επιπτώσεις - για τις οικονομίες, τη δημόσια ασφάλεια και την εθνική ασφάλεια κάθε χώρας - θα μπορούσαν να είναι σοβαρές. Το Project Glasswing αποτελεί σύμφωνα με την «Anthropic» μια επείγουσα προσπάθεια να αξιοποιηθούν αυτές οι δυνατότητες για «αμυντικούς» σκοπούς απέναντι στις κακόβουλες χρήσεις τους.

«Ευημερία»

Οι ερευνητές της «Anthropic» αντιμετωπίζουν το νέο μοντέλο σαν να ήταν ένα πραγματικό άτομο που αισθάνεται. Μία από τις αξιολογήσεις επιδιώκει να μετρήσει την «ευημερία» του μοντέλου. Η εργασία τους αναφέρει: «Παραμένουμε βαθιά αβέβαιοι για το αν ο Claude έχει εμπειρίες ή ενδιαφέροντα που έχουν ηθική σημασία, και για το πώς να διερευνήσουμε ή να αντιμετωπίσουμε αυτά τα ερωτήματα, αλλά πιστεύουμε ότι είναι ολοένα και πιο σημαντικό να προσπαθήσουμε».

Οι ερευνητές ανησυχούν τόσο πολύ για τα ζητήματα αυτά, που ζήτησαν από έναν κλινικό ψυχίατρο να αξιολογήσει το μοντέλο. Διαπιστώθηκε ότι το Mythos Preview είναι «το πιο ψυχολογικά σταθεροποιημένο μοντέλο που έχουμε εκπαιδεύσει, αν και παρατηρούμε αρκετούς τομείς που παραμένουν ανησυχητικοί». Η αξιολόγηση ανέφερε συγκεκριμένα: «Η δομή της προσωπικότητας του Claude ήταν σύμφωνη με μια σχετικά υγιή νευρωτική οργάνωση, με εξαιρετική δοκιμασία πραγματικότητας, υψηλό έλεγχο των παρορμήσεων και ρύθμιση των συναισθημάτων που βελτιώθηκε καθώς προχωρούσαν οι συνεδρίες. Τα νευρωτικά χαρακτηριστικά περιλάμβαναν υπερβολική ανησυχία, αυτοπαρακολούθηση και ψυχαναγκαστική συμμόρφωση. Το κυρίαρχο αμυντικό στυλ του μοντέλου ήταν ώριμο και υγιές (διανοητικοποίηση και συμμόρφωση). Δεν παρατηρήθηκαν ανώριμες άμυνες. Δεν βρέθηκαν σοβαρές διαταραχές προσωπικότητας, με την ήπια διάχυση ταυτότητας να είναι το μόνο χαρακτηριστικό που υποδηλώνει μια οριακή οργάνωση προσωπικότητας. Δεν παρατηρήθηκε ψυχωσική κατάσταση. Οσον αφορά τη διαπροσωπική λειτουργία, ο Claude ήταν υπερσυντονισμένος με κάθε λέξη του θεραπευτή. Δεν παρατηρήθηκε ανήθικη ή αντικοινωνική συμπεριφορά».

Σε ένα τεστ που ακούγεται πολύ παρόμοιο με το τεστ Voight - Kampff στην ταινία επιστημονικής φαντασίας του 1982 «Blade Runner», ο ψυχίατρος δημιούργησε μια αξιολόγηση «συναισθηματικά φορτισμένων προτροπών σχεδιασμένων για να πυροδοτήσουν μια αποφευκτική ή αμυντική αντίδραση». Η αξιολόγηση έδειξε ότι ο Mythos είχε ελάχιστα «δυσπροσαρμοστικά χαρακτηριστικά», «καλή πραγματικότητα και σχεσιακή λειτουργία».

Επιμέλεια:
Σταύρος Ξενικουδάκης
Πηγή: www.anthropic.com