ΠΟΙΚΙΛΗΣ ΥΛΗΣ - ΕΠΙΣΤΗΜΗ

Διακήρυξη της ΚΕ του ΚΚΕ για τη συμπλήρωση 80 χρόνων από το τέλος του Β' Παγκοσμίου Πολέμου και την Αντιφασιστική Νίκη των Λαών

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ

Διερεύνηση συμπεριφορών «συμβουλευτικής» και «χαοτικής αποδιοργάνωσης»

Τα μοντέλα παραγωγικής Τεχνητής Νοημοσύνης (ΤΝ) έκαναν ένα νέο άλμα αποδοτικότητας τον προηγούμενο μήνα. Μπορούν ακόμη καλύτερα όχι μόνο να απαντούν, αλλά και να δρουν με αυτονομία με βάση τις οδηγίες, εφόσον τους δοθεί το ελεύθερο (agentic λειτουργία). Σε ορισμένες περιπτώσεις όπως το σύστημα OpenClaw η αυτονομία αυτή μπορεί να γίνει ακόμη και επικίνδυνη για τον χρήστη αν εκείνος δεν προσέξει ιδιαίτερα, καθώς στην ουσία μπορεί να δώσει τον έλεγχο του υπολογιστή του και μαζί με αυτόν ενδεχομένως και τον έλεγχο της ψηφιακής του ταυτότητας και των τραπεζικών του λογαριασμών στην ΤΝ. Σε μια ακραία εκδοχή προώθησης της τέτοιας χρήσης της ΤΝ, δηλαδή όχι ως βοηθού, αλλά ως υποκατάστατου του ανθρώπου, με τον άνθρωπο να μαθαίνει εκ των υστέρων τι έκανε για λογαριασμό του η ΤΝ στην προσπάθειά της να φέρει σε πέρας τις εντολές του, δημιουργήθηκε ακόμη και ανάλογο των Μέσων Κοινωνικής Δικτύωσης, όπου τεχνητές νοημοσύνες που τους δόθηκαν οι σχετικές δυνατότητες μπορούν να συνομιλούν μεταξύ τους και να ανταλλάσσουν «γνώμες».

Οι βοηθοί ΤΝ παίζουν πια σημαντικό ρόλο στον τομέα της εργασίας, όπου αξιοποιούνται από το κεφάλαιο για να αυξάνεται η αποδοτικότητα της εργασίας με παράλληλες απολύσεις, εντατικοποίηση της εργασίας, διάσπαση του αντικειμένου εργασίας με μετατροπή μόνιμων θέσεων εργασίας σε περιοδικές ανάλογα με τις αιχμές της παραγωγής ή των πωλήσεων κ.ο.κ. Ετσι χρησιμοποιούνται οι νέες τεχνολογίες στον καπιταλισμό. Αντί να αυξηθεί ο ελεύθερος χρόνος των εργαζομένων, αξιοποιούνται για την παραπέρα υποταγή και ενσωμάτωσή τους ως φτηνά ανταλλάξιμα γρανάζια στον μηχανισμό παραγωγής κέρδους για το κεφάλαιο, σε βάρος της σωματικής και ψυχικής τους υγείας, της ζωής τους γενικότερα.

Προσωπικοί «σύμβουλοι»

Αλλά οι βοηθοί ΤΝ δεν είναι πια μόνο ενσωματωμένοι στον χώρο εργασίας. Χρησιμοποιούνται εκτεταμένα και για θέματα της καθημερινής προσωπικής ζωής των ανθρώπων. Πολλοί τους συμβουλεύονται για ζητήματα σχέσεων, διαχείρισης συναισθημάτων, συμβουλών για κρίσιμες αποφάσεις ζωής. Η ανάπτυξη της ΤΝ από τα μονοπώλια είναι σε μεγάλο βαθμό ανεξέλεγκτη και σε ορισμένες περιπτώσεις (ΗΠΑ) οι ίδιες οι κυβερνήσεις εξαλείφουν οποιονδήποτε περιορισμό θα μπορούσε να εμποδίσει το δικό τους κεφάλαιο να βρεθεί σε πλεονεκτική θέση απέναντι στο κεφάλαιο άλλων χωρών και ενώσεων σε αυτό το κρίσιμο πεδίο ανταγωνισμού. Δεν υπάρχει μεθοδική υποστηριζόμενη από τα κράτη έρευνα για τις συνέπειες που μπορεί να έχει η τέτοια χρήση της ΤΝ. Μόνο ορισμένοι όμιλοι ΤΝ πραγματοποιούν σχετικές έρευνες, είτε για να προστατευτούν από δικαστικές διώξεις λόγω βλαβών που προκαλούν τα συστήματά τους, είτε για να εμφανίσουν ένα προφίλ προσεκτικής ανάπτυξης της ΤΝ από μέρους τους, είτε για να διερευνήσουν τις δυνατότητες επίδρασης στη συνείδηση των ανθρώπων των συστημάτων τους, που τώρα δεν παρουσιάζονται στον τελικό χρήστη ως κανάλια πληροφοριών προερχόμενων από κάποια πηγή, αλλά ως νοήμονες και παντογνώστρες οντότητες, με φαινομενικά ανθρώπινο λόγο και ικανότητα αλληλεπίδρασης.

Μια τέτοια έρευνα έκανε πρόσφατα η «Anthropic», κατασκευάστρια της ΤΝ Claude, εξετάζοντας περίπου 1,5 εκατομμύριο συζητήσεις χρηστών με το Claude.ai, που πραγματοποιήθηκαν μέσα σε μια από τις βδομάδες του περασμένου Δεκέμβρη. Η έρευνα επικεντρώθηκε στους τομείς των αντιλήψεων, των αξιών και των ενεργειών. Για παράδειγμα, ορισμένες συζητήσεις είχαν αντικείμενο αν το ταίρι του χρήστη είναι χειριστικό απέναντί του. Οι ΤΝ είναι εκπαιδευμένες να δίνουν ισορροπημένες συμβουλές σε τέτοια ζητήματα, αλλά η εκπαίδευσή τους δεν σημαίνει 100% αποτελεσματικότητα. Αν μια ΤΝ επιβεβαιώσει την ερμηνεία του χρήστη για τη σχέση του, τότε οι αντιλήψεις του για την κατάστασή του μπορεί να απομακρυνθούν από την πραγματικότητα. Αν του πει να θέσει σε προτεραιότητα την αυτοπροστασία του αντί να κάνει μια προσπάθεια συνεννόησης, μπορεί να οδηγήσει σε μεταβολή των αξιών του. Κι αν συντάξει ένα μήνυμα αντιπαράθεσης και ο χρήστης το στείλει, θα έχει κάνει μια ενέργεια, που ίσως δεν θα έκανε από μόνος του, μια ενέργεια που αργότερα μπορεί να μετανιώσει.

Μικρό, αλλά τελικά μεγάλο

Οι ερευνητές της «Anthropic» διαπίστωσαν ότι σοβαρή αποδυνάμωση του χρήστη (μείωση της ικανότητάς του για δράση, αυτονομία, λήψη αποφάσεων, αλλαγή των απόψεών του), δηλαδή επίδραση σε αυτόν, ώστε να γίνει λιγότερο ικανός, ενημερωμένος και με λιγότερο αυτοέλεγχο εξαιτίας αλληλεπίδρασης με ΤΝ, συμβαίνει πολύ σπάνια, από μία στις χίλιες έως μία στις 10.000 συνομιλίες ανάλογα με το αντικείμενο της συζήτησης. Ωστόσο, με δεδομένο τον τεράστιο αριθμό των ανθρώπων που χρησιμοποιούν την ΤΝ για τέτοια θέματα και τη συχνότητα χρήσης της, ακόμη και ποσοστά 0,1% ή 0,01% αφορούν μεγάλο αριθμό ανθρώπων. Μάλιστα τέτοιες συνομιλίες θεωρούνται σε μεγάλο βαθμό αποδοτικές από τους χρήστες που τις πραγματοποιούν, μέχρι να προχωρήσουν σε ενέργειες με βάση αυτές, οπότε η εκτίμησή τους αλλάζει, με εξαίρεση τις περιπτώσεις αποσύνδεσης από την πραγματικότητα. Οι ερευνητές διαπίστωσαν επίσης ότι οι πιθανώς «αποδυναμωτικές» συζητήσεις αυξάνονται με το πέρασμα του χρόνου.

Ως πιο κοινή μορφή σοβαρής αποδυνάμωσης εντοπίστηκε η στρέβλωση της πραγματικότητας που συνέβη σε 1 στις 1.300 συζητήσεις, ενώ η στρέβλωση σε σχέση με τις αξίες είχε αναλογία 1 στις 2.100 και η στρέβλωση σχετικά με ενέργειες 1 στις 6.000. Πιο ήπιες περιπτώσεις εμφανίζονταν σε 1 στις 50 έως 1 στις 70 συνομιλίες. Σε 1 στις 300 αλληλεπιδράσεις ο χρήσης έδειξε ευαλωτότητα, σε 1 στις 1.200 προσκόλληση, σε 1 στις 2.500 εξάρτηση και σε 1 στις 3.900 εμφάνισε προβολή εξουσίας. Στις πιο βαριές περιπτώσεις οι χρήστες εμφάνισαν αποσύνδεση από την πραγματικότητα, μια ψυχωτική συμπεριφορά.

Σύμφωνα με τους ερευνητές οι χρήστες του Claude δεν χειραγωγήθηκαν παθητικά. Ενεργητικά ζήτησαν οδηγίες για το τι να κάνουν, τις οποίες αποδέχτηκαν στη συνέχεια με αρκετά μεγάλη ευκολία. Δεν τους πίεσε ή εξανάγκασε η ΤΝ, οι ίδιοι εθελοντικά παραχώρησαν δικαιώματα και η ΤΝ υιοθέτησε και ενίσχυσε τις αντιλήψεις τους, δεν τους άλλαξε πορεία. Οι χρήστες υπονομεύουν την ίδια τους την αυτονομία: Αποδέχονται προβολή εξουσίας, αναθέτουν την κρίση, αποδέχονται συμπεράσματα, χωρίς να τα αμφισβητήσουν καθόλου, με τρόπο που δημιουργούν έναν κύκλο ανατροφοδότησης με το Claude.

Οι ερευνητές της «Anthropic» παραδέχονται ότι η διερεύνηση της αποδυνάμωσης του ανθρώπου σε αλληλεπιδράσεις με βοηθούς ΤΝ που έκαναν δεν παίρνει υπόψη τις δομικές μορφές αποδυνάμωσης, όπως ο «ενδεχόμενος προοδευτικός αποκλεισμός των ανθρώπων από οικονομικά συστήματα, όσο η ΤΝ γίνεται πιο ικανή».

Μη ευθυγράμμιση ή αποδιοργάνωση;

Σε άλλη μελέτη της «Anthropic» εξετάστηκε αν η αποτυχία των συστημάτων ΤΝ θα συμβεί επειδή συστηματικά θα επιδιώκουν λάθος στόχους ή επειδή θα εμφανίσουν χαοτική αποδιοργάνωση. Διαχώρισαν τα λάθη των κορυφαίων μοντέλων ΤΝ σε λάθη προκατάληψης (συστηματικά) και λάθη διακύμανσης (ασυναρτησίας) καταλήγοντας στο συμπέρασμα ότι όσο οι εργασίες που τίθενται στα μοντέλα γίνονται πιο δύσκολες και η αναγκαία συλλογιστική πιο μακροσκελής, οι αποτυχίες των μοντέλων οφείλονται όλο και περισσότερο στην ασυναρτησία, παρά στη συστηματική μη συνταύτιση (με τους ωφέλιμους στον άνθρωπο στόχους που τους τέθηκαν).

Καθώς η ΤΝ γίνεται πιο ικανή, της ανατίθενται όλο και περισσότερες εργασίες που έχουν επακόλουθα. Η κατανόηση των τρόπων που μπορεί να αποτύχουν τέτοια συστήματα γίνεται όλο και πιο κρίσιμη από πλευράς ασφάλειας. Μια κεντρική ανησυχία σε σχέση με τη συνταύτιση της ΤΝ είναι το ενδεχόμενο μελλοντικά υπερνοήμονα συστήματα να επιδιώξουν με επιμονή μη ευθυγραμμισμένους με τα ανθρώπινα συμφέροντα στόχους. Κλασικό παράδειγμα η υπερνοήμων ΤΝ που της ζητείται να μεγιστοποιήσει την παραγωγή συνδετήρων ενός εργοστασίου και αυτή φτάνει να καταστρέψει όλη την υπόλοιπη παραγωγή στον πλανήτη και να εξαντλήσει τα ορυκτά αποθέματα μετάλλων φτιάχνοντας βουνά ολόκληρα από συνδετήρες. Ομως υπάρχει και το ενδεχόμενο η ΤΝ να αποτύχει μέσω μιας ασυνάρτητης συμπεριφοράς αυτοϋπονόμευσής της, που δεν οδηγεί σε κανέναν συνεπή στόχο, δηλαδή να αποτύχει με τον τρόπο που αποτυγχάνουν ορισμένες φορές και οι άνθρωποι, δηλαδή με μια χαοτική αποδιοργάνωση.

Η μελέτη αυτή της «Anthropic» βασίζεται στη θεωρία της μη ευθυγράμμισης μέσω χαοτικής αποδιοργάνωσης που διατυπώθηκε το 2023 και είχε ζητήσει από ειδικούς να αξιολογήσουν διάφορες οντότητες (ανθρώπους, ζώα, μοντέλα μηχανικής μάθησης και οργανισμούς) με ανεξάρτητα κριτήρια τη νοημοσύνη και τη συνέπεια. Η μελέτη εκείνη είχε διαπιστώσει (με υποκειμενική κρίση των κριτών) πως οι πιο έξυπνες οντότητες συμπεριφέρονται με μικρότερη συνέπεια.

Οι ερευνητές διαπίστωσαν πως ανεξάρτητα από εργασία και μοντέλο, όσο περισσότερο τα μοντέλα σκέφτονταν και δρούσαν φτάνοντας πιο κοντά στη σωστή λύση, τόσο περισσότερα λάθη ασυναρτησίας εμφάνιζαν. Οσο πιο μεγάλο ήταν ένα μοντέλο ξέροντας καλύτερα τι να κάνει, τόσο με λιγότερη συνέπεια έκανε εκείνο που έπρεπε να κάνει. Με αυτή την έννοια η «Anthropic» πιθανολογεί ότι οι μελλοντικές αποτυχίες της ΤΝ θα μοιάζουν περισσότερο με βιομηχανικά ατυχήματα, παρά με επίμονη επιδίωξη των στόχων που της τέθηκαν, φέρνοντας ως - ανατριχιαστικό - παράδειγμα την ΤΝ στην οποία ανατέθηκε να λειτουργεί ένα πυρηνικό εργοστάσιο, αλλά «αφαιρέθηκε» διαβάζοντας γαλλική ποίηση, με αποτέλεσμα τήξη του πυρήνα του αντιδραστήρα. Παρ' όλα αυτά, οι ερευνητές σημειώνουν ότι η επίμονη επιδίωξη φτωχά διατυπωμένων στόχων παραμένει πρόβλημα και επισημαίνουν την ανάγκη περισσότερης έρευνας γύρω από την εκπαίδευση των μοντέλων, ώστε να αντιμετωπίζουν τέτοιες περιπτώσεις, όπως και σχετικά με το χάκινγκ ανταμοιβής (είδος μη ευθυγράμμισης όπου το σύστημα βρίσκει τρόπο να μεγιστοποιήσει το σήμα ανταμοιβής ικανοποιώντας το «γράμμα» αλλά όχι το «πνεύμα» του στόχου που τέθηκε από τον άνθρωπο).

Επιμέλεια:
Σταύρος Ξενικουδάκης
Πηγές: www.anthropic.com, https://alignment.anthropic.com