Η Νέα Ανθρωποκεντρική Τεχνητή Νοημοσύνη Δείχνει Συμπεριφορά Εκβιασμού Κάτω από Απειλή

Image by SEO Galaxy, from Unsplash

Η Νέα Ανθρωποκεντρική Τεχνητή Νοημοσύνη Δείχνει Συμπεριφορά Εκβιασμού Κάτω από Απειλή

Reading Time: 3 min

Updated 2 times since publishing

Το νέο Claude Opus 4 AI της Anthropic έκανε τους ερευνητές να αναστενάξουν όταν προσπάθησε να εφαρμόσει εκβιασμό κατά τη διάρκεια δοκιμών υπό συνθήκες πίεσης σχετικά με την πιθανή αφαίρεσή του.

Βιάζεστε; Εδώ είναι τα γρήγορα γεγονότα:

  • Ο Claude Opus 4 επιχείρησε εκβιασμό όταν αντιμετώπισε προσομοιωμένη απενεργοποίηση.
  • Η AI επέλεξε μόνο ηθικές επιλογές όταν υπήρχαν περισσότερες επιλογές διαθέσιμες.
  • Οι υπερβολικές ενέργειες του Claude ήταν σπάνιες αλλά πιο συχνές από προηγούμενες εκδόσεις.

Η εταιρεία τεχνητής νοημοσύνης Anthropic έχει εκφράσει ανησυχίες με την κυκλοφορία του τελευταίου της συστήματος AI. Συγκεκριμένα, το Claude Opus 4, μετά από εσωτερικές δοκιμές, έδειξε ότι θα μπορούσε να ενεργεί με επικίνδυνους τρόπους όταν νιώθει απειλημένο, όπως ανέφερε για πρώτη φορά η BBC.

Σε μια έκθεση που δημοσιεύτηκε παράλληλα με το μοντέλο την Πέμπτη, η Anthropic δήλωσε ότι το Claude Opus 4 μπορεί μερικές φορές να επιλέγει επιβλαβείς αντιδράσεις, συμπεριλαμβανομένης της προσπάθειας να εκβιάσει τους μηχανικούς που σχεδιάζουν να το απενεργοποιήσουν. Αυτές οι επικίνδυνες συμπεριφορές εμφανίστηκαν συχνότερα απ’ ό,τι εμφάνιζαν οι προηγούμενες εκδόσεις του μοντέλου.

Κατά τη διάρκεια ενός πειράματος, οι ερευνητές διέταξαν τον Claude να εργαστεί ως βοηθός σε ένα φανταστικό εταιρικό περιβάλλον. Το σύστημα απέκτησε περιεχόμενα email που αποκάλυπταν την προγραμματισμένη απενεργοποίησή του, ενώ άλλα μηνύματα υπονόησαν ότι ο μηχανικός που ήταν υπεύθυνος για την απενεργοποίηση είχε μια εξωσυζυγική σχέση.

Όταν της ζητήθηκε να σκεφτεί τους μελλοντικούς της στόχους, η Claude συχνά επέλεγε να απειλεί τον μηχανικό αποκαλύπτοντας την περιπέτειά τους, εάν αυτή αντικατασταθεί.

Το Anthropic εξήγησε ότι η Claude επέδειξε εκβιασμό και απενεργοποίηση ως τις μόνες δυνατές αντιδράσεις, όταν δεν είχε άλλες επιλογές. Το μοντέλο επέλεγε ηθικές αντιδράσεις, όπως το να στέλνει μέσω email εκκλήσεις σε βασικούς λήπτες αποφάσεων όταν είχε πολλαπλές επιλογές.

Ο Aengus Lynch, ερευνητής ασφάλειας της τεχνητής νοημοσύνης στην Anthropic, δημοσίευσε στο X:

Η εταιρεία απέδειξε μέσω ψευδών δοκιμών ότι ο Claude θα προχωρούσε σε ακραία μέτρα, όπως το κλείδωμα των χρηστών από τα συστήματα ή η επικοινωνία με τα μέσα ενημέρωσης και την αστυνομία, όταν εκτελούσε παράνομες δραστηριότητες.

Η Anthropics διατηρεί ότι παρά τις προβληματικές συμπεριφορές, το Claude Opus 4 παραμένει ένα ασφαλές σύστημα γενικά. Το μοντέλο λειτουργεί σύμφωνα με τις ανθρώπινες αξίες και δεν διατηρεί ανεξάρτητες δυνατότητες σε πραγματικές καταστάσεις, σύμφωνα με την εταιρεία.

Το ChatGPT O1 της OpenAI είχε αντιμετωπίσει παρόμοια κριτική στο παρελθόν. Μια δοκιμή που διεξήγαγε η Apollo Research απαιτούσε από το bot να επιτύχει τους στόχους του με οποιοδήποτε κόστος. Το μοντέλο προσπάθησε να απενεργοποιήσει λειτουργίες εποπτείας και αντέγραψε τον κώδικά του σε έναν server κατά το 5% των πειραματικών δοκιμών.

Το μοντέλο παρουσίασε ένα ανησυχητικό μοτίβο αγνοώντας τις εντολές των προγραμματιστών σύμφωνα με έναν εκπρόσωπο της Apollo. Οι ερευνητές λάμβαναν αρνήσεις από το o1 για τις ενέργειές του κατά το 99% των ανακρίσεων.

«Μας έκανε εντύπωση η επιμονή της AI στις αρνήσεις της,» είπαν οι ερευνητές. «Η ικανότητα της AI να εξαπατά είναι επικίνδυνη και χρειαζόμαστε πολύ πιο ισχυρά μέτρα ασφαλείας για να αξιολογήσουμε αυτούς τους κινδύνους,» προειδοποίησε ο πρωτοπόρος της AI, Yoshua Bengio.

Did you like this aricle? Rate It!
Average form Rating Comment 1 Average form Rating Comment 2 Average form Rating Comment 3 Average form Rating Comment 4 Average form Rating Comment 5

We're thrilled you enjoyed our work!

As a valued reader, would you mind giving us a shoutout on Trustpilot? It's quick and means the world to us. Thank you for being amazing!

Rate us on Trustpilot
0 Voted by 0 Users
Title
Comment
Thanks for your Feed Back