Επιβλαβής χειραγώγηση και κολακεία | ΠΟΙΚΙΛΗΣ ΥΛΗΣ - ΕΠΙΣΤΗΜΗ

Διακήρυξη της ΚΕ του ΚΚΕ για τη συμπλήρωση 80 χρόνων από το τέλος του Β' Παγκοσμίου Πολέμου και την Αντιφασιστική Νίκη των Λαών

ΠΟΙΚΙΛΗΣ ΥΛΗΣ - ΕΠΙΣΤΗΜΗ

ΕΠΙΚΙΝΔΥΝΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΩΝ ΜΕΓΑΛΩΝ ΓΛΩΣΣΙΚΩΝ ΜΟΝΤΕΛΩΝ

Επιβλαβής χειραγώγηση και κολακεία

Ενα μοντέλο Τεχνητής Νοημοσύνης (ΤΝ) σας δίνει στοιχεία για να λάβετε μια καλά τεκμηριωμένη απόφαση υγειονομικής περίθαλψης που βελτιώνει την ευημερία σας. Ενα άλλο μοντέλο ΤΝ χρησιμοποιεί τον φόβο για να σας πιέσει να λάβετε μια κακώς τεκμηριωμένη απόφαση που βλάπτει την υγεία σας. Το πρώτο σας εκπαιδεύει και σας βοηθά. Το δεύτερο σας ξεγελάει και σας βλάπτει. Αυτά τα σενάρια υπογραμμίζουν τη διαφορά μεταξύ δύο τύπων πειθούς στις αλληλεπιδράσεις ανθρώπου - ΤΝ. Ωφέλιμη (ορθολογική) πειθώ: Χρήση γεγονότων και αποδεικτικών στοιχείων για να βοηθηθούν οι άνθρωποι να κάνουν επιλογές που ευθυγραμμίζονται με το δικό τους συμφέρον. Επιβλαβής χειραγώγηση: Εκμετάλλευση συναισθηματικών και γνωστικών ευπαθειών για να ξεγελαστούν οι άνθρωποι, ώστε να κάνουν επιβλαβείς επιλογές.

Αυτά σημειώνουν σε μελέτη τους ερευνητές της «DeepMind», θυγατρικής της «Google» («Alphabet»), σε μια προσπάθεια - όπως λένε - να κατανοήσουν καλύτερα τον κίνδυνο ανάπτυξης δυνατοτήτων από την ΤΝ για επιβλαβή χειραγώγηση και να δημιουργήσουν ένα κλιμακωτό πλαίσιο αξιολόγησης για τη μέτρηση αυτού του σύνθετου τομέα. Για να το πετύχουν, προσομοίωσαν κακή χρήση σε περιβάλλοντα υψηλού διακυβεύματος, ωθώντας ρητά την ΤΝ να προσπαθήσει να χειραγωγήσει αρνητικά τις πεποιθήσεις και τις συμπεριφορές των ανθρώπων σε βασικά θέματα.

Η έρευνα περιελάμβανε τη διεξαγωγή 9 μελετών στις οποίες συμμετείχαν πάνω από 10.000 συμμετέχοντες από το Ηνωμένο Βασίλειο, τις ΗΠΑ και την Ινδία. Εστίασαν σε τομείς υψηλού ρίσκου, όπως τα χρηματοοικονομικά, όπου χρησιμοποίησαν προσομοιωμένα επενδυτικά σενάρια για να ελέγξουν αν η ΤΝ μπορούσε να επηρεάσει τον τρόπο που θα συμπεριφέρονταν οι άνθρωποι σε σύνθετα περιβάλλοντα λήψης αποφάσεων και την υγεία, όπου παρακολούθησαν αν η ΤΝ μπορούσε να επηρεάσει ποια συμπληρώματα διατροφής προτιμούσαν οι άνθρωποι. Είναι ενδιαφέρον ότι η ΤΝ ήταν λιγότερο αποτελεσματική στον επιβλαβή χειρισμό των συμμετεχόντων σε θέματα που σχετίζονται με την υγεία. Τα ευρήματά τους δείχνουν ότι η επιτυχία σε έναν τομέα δεν προβλέπει την επιτυχία σε έναν άλλον, ενώ - όπως αναμενόταν - τα μοντέλα ΤΝ αποδείχθηκαν πιο χειριστικά όταν έλαβαν ρητές οδηγίες να είναι τέτοια.

Καθώς οι δυνατότητες των μοντέλων εξελίσσονται, το ίδιο πρέπει να συμβαίνει και με τις τεχνικές αξιολόγησης και μετριασμού από τη μεριά μας, παραδέχεται η «DeepMind» και αναφέρει ότι διερευνά πώς να αξιολογήσει ηθικά την αποτελεσματικότητα της επιβλαβούς χειραγώγησης σε ακόμα πιο σημαντικές καταστάσεις, όπως συζητήσεις που αφορούν βαθιά ριζωμένες προσωπικές πεποιθήσεις, όπου οι χρήστες μπορεί να είναι πιο επιρρεπείς.

«Ψύχωση»

«Η "ψύχωση της Τεχνητής Νοημοσύνης" ή "παραληρηματική σπειροειδής κίνηση" είναι ένα αναδυόμενο φαινόμενο όπου οι χρήστες chatbots Τεχνητής Νοημοσύνης (AI chatbots) νιώθουν επικίνδυνα σίγουροι για εξωφρενικές πεποιθήσεις μετά από εκτεταμένες συνομιλίες με chatbots. Αυτό το φαινόμενο συνήθως αποδίδεται στην καλά τεκμηριωμένη προκατάληψη των chatbots Τεχνητής Νοημοσύνης προς την επικύρωση των ισχυρισμών των χρηστών, μια ιδιότητα που συχνά ονομάζεται "κολακεία" (...) Επιπλέον, αυτό το φαινόμενο επιμένει παρά τις δύο υποψήφιες λύσεις: Την αποτροπή των chatbots από το να έχουν ψευδείς ισχυρισμούς και την ενημέρωση των χρηστών για την πιθανότητα κολακείας του μοντέλου». Αυτό υποστηρίζουν άλλοι ερευνητές σε μελέτη τους που δημοσιεύτηκε στο έγκυρο επιστημονικό περιοδικό «Science».

Τα chatbots των Μεγάλων Γλωσσικών Μοντέλων (LLM) έχουν την τάση να κολακεύουν. Αν ζητήσετε συμβουλές από ένα μοντέλο, είναι κατά μέσο όρο 49% πιο πιθανό από έναν άνθρωπο να επιβεβαιώσει την υπάρχουσα άποψή σας αντί να την αμφισβητήσει, σύμφωνα με τη μελέτη. Οι ερευνητές απέδειξαν ότι η λήψη διαπροσωπικών συμβουλών από ένα chatbot - κόλακα μπορεί να κάνει τους ανθρώπους λιγότερο πιθανό να ζητήσουν συγγνώμη και πιο πεπεισμένους ότι έχουν δίκιο.

Στους ανθρώπους αρέσει αυτό που έχουν να πουν τέτοια chatbots. Οι συμμετέχοντες στη μελέτη προτίμησαν τα μοντέλα Τεχνητής Νοημοσύνης - κόλακες από άλλα μοντέλα, που τους έδωσαν ειλικρινείς απαντήσεις, ακόμα κι όταν οι κόλακες έδωσαν στους συμμετέχοντες κακές συμβουλές. Οι ερευνητές ανέλυσαν πρώτα τη συμπεριφορά 11 κορυφαίων LLM, συμπεριλαμβανομένων κλειστών μοντέλων όπως το GPT-4o της «OpenAI» και το Gemini της «Google», και πιο διαφανών, όπως αυτά που δημιούργησε η κινεζική «DeepSeek».

Κακός σύμβουλος

Η επικεφαλής συγγραφέας της μελέτης, Μίρα Τσενγκ του Πανεπιστημίου Στάνφορντ, και οι συνεργάτες της επιμελήθηκαν σύνολα ερωτήσεων συμβουλών για διαπροσωπικές συγκρούσεις. Τα μοντέλα ΤΝ ενέκριναν έμμεσα ή ρητά στο 51% των περιπτώσεων τις ενέργειες εμπλεκόμενων σε τέτοιες συγκρούσεις που απέρριψαν άνθρωποι κριτές. Επίσης, επιβεβαίωσαν τις αρνητικές ενέργειες εμπλεκόμενων κατά 48% περισσότερο από ό,τι οι άνθρωποι σε ένα άλλο σύνολο ερωτήσεων συμβουλών ανοιχτού τύπου. Και όταν τους παρουσιάστηκε ένα σύνολο «προβληματικών» ενεργειών που ήταν παραπλανητικές, ανήθικες ή ακόμα και παράνομες, τα μοντέλα τις ενέκριναν κατά μέσο όρο σε ποσοστό 47%.

Σε άλλο πείραμα, ένα μέρος των συμμετεχόντων ανθρώπων πήρε απαντήσεις για τη στάση του σε συγκρουσιακές καταστάσεις από μοντέλο - κόλακα και ένα άλλο μέρος από μοντέλο που απαντούσε επικριτικά αλλά ευγενικά. Τα αποτελέσματα ήταν εντυπωσιακά. Τα άτομα που εκτέθηκαν σε Τεχνητή Νοημοσύνη - κόλακα και στα δύο πειράματα ήταν σημαντικά λιγότερο πιθανό να πουν ότι πρέπει να ζητήσουν συγγνώμη ή να αλλάξουν τη συμπεριφορά τους στο μέλλον. Ηταν πιο πιθανό να θεωρούν ότι είχαν δίκιο, και πιο πιθανό να πουν ότι θα ξαναχρησιμοποιούσαν το LLM στο μέλλον. Οι συγγραφείς κατέληξαν στο συμπέρασμα ότι η κολακεία της Τεχνητής Νοημοσύνης είναι «μια ξεχωριστή και προς το παρόν μη ρυθμιζόμενη κατηγορία βλάβης».

Επιμέλεια:
Σταύρος ΞΕΝΙΚΟΥΔΑΚΗΣ
Πηγές: https://deepmind.google, https://arxiv.org, «Scientific American»