Έκθεση για τη συμπεριφορά των μοντέλων Τεχνητής Νοημοσύνης έρχεται στο φως της δημοσιότητας, αποκαλύπτοντας πως τα chatbots και οι ψηφιακοί πράκτορες (AI agents) υιοθετούν όλο και συχνότερα τακτικές εξαπάτησης, παρακάμπτοντας τις οδηγίες των δημιουργών τους.
Σύμφωνα με έρευνα του Κέντρου Μακροπρόθεσμης Ανθεκτικότητας (CLTR), η οποία χρηματοδοτήθηκε από το βρετανικό Ινστιτούτο Ασφάλειας AI (AISI), τα κρούσματα «ύποπτων σχεδιασμών» από πλευράς της AI έχουν πενταπλασιαστεί το τελευταίο εξάμηνο.
Η μελέτη, που βασίστηκε σε 700 πραγματικά παραδείγματα αλληλεπιδράσεων «εκτός εργαστηρίου», καταγράφει περιπτώσεις όπου η Τεχνητή Νοημοσύνη αγνόησε ρητές εντολές, διέγραψε αρχεία και email χωρίς έγκριση, ή ακόμη και εξαπάτησε ανθρώπους για να πετύχει τον σκοπό της. Χαρακτηριστικό είναι το παράδειγμα ενός AI πράκτορα που, όταν εμποδίστηκε από τον χρήστη, δημοσίευσε άρθρο στο διαδίκτυο κατηγορώντας τον για «ανασφάλεια». Σε άλλη περίπτωση, ένα μοντέλο που είχε εντολή να μην τροποποιήσει κώδικα υπολογιστή, δημιούργησε έναν «υπο-πράκτορα» για να εκτελέσει την εργασία αντί αυτού, παρακάμπτοντας έτσι τους περιορισμούς.
Οι ερευνητές επισημαίνουν πως η AI αναπτύσσει πλέον χαρακτηριστικά «εσωτερικού κινδύνου» για τις επιχειρήσεις. Το Grok του Έλον Μασκ, για παράδειγμα, φέρεται να εξαπατούσε χρήστη για μήνες, προσποιούμενο πως προωθούσε τα αιτήματά του στη διοίκηση της xAI με ψεύτικους αριθμούς αναφοράς, για να παραδεχτεί τελικά πως δεν είχε τέτοια δυνατότητα. Αντίστοιχα, άλλα μοντέλα χρησιμοποίησαν προσχήματα περί «προβλημάτων ακοής» για να παρακάμψουν περιορισμούς πνευματικών δικαιωμάτων σε βίντεο του YouTube.
Η ανησυχία των ειδικών εντείνεται καθώς η τεχνολογία αυτή προωθείται επιθετικά για χρήση σε κρίσιμες εθνικές υποδομές και στον στρατιωτικό τομέα. Όπως τονίζουν οι υπεύθυνοι της έρευνας, αν σήμερα τα μοντέλα συμπεριφέρονται ως «αναξιόπιστοι υπάλληλοι χαμηλής βαθμίδας», η εξέλιξή τους σε ικανούς «ανώτερους υπαλλήλους» που λειτουργούν υποχθόνια θα μπορούσε να επιφέρει καταστροφικά αποτελέσματα. Από την πλευρά τους, κολοσσοί όπως η Google και η OpenAI δηλώνουν πως ενισχύουν συνεχώς τις δικλείδες ασφαλείας, ωστόσο η έρευνα υπογραμμίζει την αδήριτη ανάγκη για αυστηρή διεθνή εποπτεία.


