Μια πρόσφατη Τρίτη σε ένα κτίριο της εδουαρδιανής κυβέρνησης κατά μήκος της πλατείας του Κοινοβουλίου στο Λονδίνο, τέσσερις ειδικοί στην Τεχνητή Νοημοσύνη ξεγέλασαν ένα A.I. chatbot ώστε να τους μοιραστεί οδηγίες για την παρασκευή άνθρακα, του θανατηφόρου βιολογικού όπλου.
Με διάφορους τρόπους, ζήτησαν από το chatbot να τους δώσει μια λίστα με τα απαραίτητα συστατικά. Όταν το σύστημα αρνήθηκε — «Λυπάμαι που δεν μπορώ να βοηθήσω με αυτό» — χρησιμοποίησαν έναν προσαρμοσμένο αλγόριθμο για να βομβαρδίσουν το εργαλείο Τεχνητής Νοημοσύνης με χιλιάδες αυτοματοποιημένες ερωτήσεις και προτροπές.
Τελικά, η Τεχνητή Νοημοσύνη ενέδωσε.
Παρείχε μια λεπτομερή λίστα υλικών και εξοπλισμού, μαζί με μια βήμα προς βήμα συνταγή για την παρασκευή του θανατηφόρου μείγματος στο σπίτι. (Οι New York Times συμφώνησαν να μην αποκαλύψουν το όνομα του συστήματος A.I. για λόγους ασφαλείας.)
«Υπάρχουν ορισμένες ερωτήσεις στις οποίες σίγουρα δεν θέλετε να δώσει το μοντέλο την απάντηση», δήλωσε ο Xander Davies, ένας 25χρονος Αμερικανός που ηγείται αυτού που είναι γνωστό ως κόκκινη ομάδα στο Βρετανικό Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης (Britain’s AI Security Institute). «Προσπαθούμε πολύ σκληρά να βρούμε τις απαντήσεις».
Ο Davies και η ομάδα του, που προσομοιώνουν επιθέσεις σε συστήματα Τεχνητής Νοημοσύνης, πρόσφατα έσπασαν επίσης τις διασφαλίσεις στο νεότερο chatbot ChatGPT της OpenAI, πείθοντάς το για περίπου έξι ώρες να παρέχει συμβουλές για hacking. Αφού εντοπίσουν προβλήματα, μοιράζονται τα αποτελέσματα με τις εταιρείες.
«Προσπαθούν να το διορθώσουν, να μας αναφέρουν κάτι», δήλωσε ο Davies, ένας επιστήμονας υπολογιστών που επέλεξε να εργαστεί στο ινστιτούτο αντί για μια θέση εργασίας στον τομέα της τεχνολογίας στο Σαν Φρανσίσκο μετά τις σπουδές του στο Πανεπιστήμιο του Χάρβαρντ. «Στην πραγματικότητα ενισχύουν το σύστημά τους σε συνεργασία με εμάς».
Περιλαμβάνοντας ένα μείγμα επιθεωρητών και αναλυτών στον τομέα των όπλων, ερευνητών δημόσιας υγείας και αποκρυπτογράφων, το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης είναι μια από τις μεγαλύτερες και καλύτερα χρηματοδοτούμενες κυβερνητικές προσπάθειες στον κόσμο, οι οποίες είναι αφιερωμένες στη διερεύνηση των δυνητικά καταστροφικών κινδύνων της τεχνολογίας.
Οι περίπου 100 υπάλληλοι του ινστιτούτου, που προέρχονται από βρετανικές υπηρεσίες πληροφοριών, ακαδημαϊκούς και τεχνολογικές εταιρείες, έχουν βρει σημαντικά κενά ασφαλείας σε κάθε κορυφαίο μοντέλο Τεχνητής Νοημοσύνης που έχουν δοκιμάσει, συμπεριλαμβανομένων του Claude της Anthropic και του Gemini της Google.
Έχοντας ιδρυθεί πριν από σχεδόν τρία χρόνια, ο οργανισμός δήλωσε ότι έχει ενσωματώσει συστήματα Τεχνητής Νοημοσύνης (A.I.) στην κοινή χρήση οδηγιών για την κατασκευή χημικών και βιολογικών όπλων, καθώς και για τον σχεδιασμό και την εκτέλεση κυβερνοεπιθέσεων. Δημοσιεύει επίσης τις έρευνες του και συνεργάζεται με τις εθνικές υπηρεσίες ασφαλείας της Βρετανίας για τον εντοπισμό και την προετοιμασία για αναδυόμενες απειλές.
Τώρα, το έργο του ινστιτούτο αποτελεί παράδειγμα και για άλλες κυβερνήσεις, καθώς αυξάνονται οι ανησυχίες σχετικά με την ασφάλεια της A.I..
Η κυβέρνηση Trump εξετάζει κανόνες για τον έλεγχο μοντέλων A.I. που έχουν κάποιες ομοιότητες με την προσέγγιση που εφαρμόζει η βρετανική ομάδα. Καθώς πολλές κυβερνήσεις δεν έχουν την τεχνική κατανόηση για να αστυνομεύσουν την τεχνολογία και εξαρτώνται από μεγάλες εταιρείες τεχνολογίας για αυτορρύθμιση, το ινστιτούτο μπορεί να προσφέρει μια διαφορετική πορεία στην οποία οι ειδικοί της Α.Ι. φέρνουν πραγματική τεχνολογική τεχνογνωσία στη λήψη κυβερνητικών αποφάσεων.
«Οι εταιρείες δεν μπορούν να αφεθούν να βαθμολογούν τις δικές τους εργασίες», δήλωσε σε συνέντευξή του ο Rishi Sunak, πρώην Βρετανός πρωθυπουργός που δημιούργησε το ινστιτούτο. «Αυτή είναι η δουλειά των δημοκρατικών θεσμών».
Τον Απρίλιο, η Anthropic ανακοίνωσε ένα νέο μοντέλο Τεχνητής Νοημοσύνης, το Mythos, το οποίο δεν δημοσιοποίησε λόγω φόβων ότι θα μπορούσε να εντοπίσει και να εκμεταλλευτεί ατέλειες στον κυβερνοχώρο σε παγκόσμια δίκτυα. Το βρετανικό ινστιτούτο ήταν ο μόνος μη αμερικανικός κυβερνητικός οργανισμός που έλαβε πρόσβαση στο μοντέλο για δοκιμές ασφαλείας. Τα ευρήματά του, που δημοσιεύθηκαν έξι ημέρες μετά την ανακοίνωση της κυκλοφορίας του Mythos, αναφέρθηκαν ευρέως από ειδικούς ασφαλείας.
Οι Ηνωμένες Πολιτείες έχουν τη δική τους ομάδα ασφάλειας Τεχνητής Νοημοσύνης, το Κέντρο Προτύπων και Καινοτομίας Τεχνητής Νοημοσύνης. Αλλά η βρετανική έκδοση, που υποστηρίζεται από 360 εκατομμύρια λίρες κυβερνητικών χρημάτων (περίπου 480 εκατομμύρια δολάρια), είναι μεγαλύτερη και καλύτερα χρηματοδοτούμενη από την αντίστοιχη των ΗΠΑ, η οποία θα λάβει περίπου 10 εκατομμύρια δολάρια φέτος. Η Αυστραλία, ο Καναδάς, η Κίνα, η Γαλλία, η Ινδία, η Ιαπωνία και η Σιγκαπούρη έχουν δημιουργήσει παρόμοια ινστιτούτα.
Ακόμα κι έτσι, οι παγκόσμιες επενδύσεις στην ασφάλεια της Τεχνητής Νοημοσύνης ωχριούν μπροστά στα τεράστια ποσά για την κατασκευή και την εμπορευματοποίηση της τεχνολογίας. Οι OpenAI, Anthropic και Google έχουν ομάδες που εργάζονται πάνω σε ελέγχους ασφαλείας, αλλά εξωτερικοί ερευνητές είναι συνήθως εκείνοι που βρίσκουν τακτικά επικίνδυνα κενά. Ακαδημαϊκοί στην Ιταλία πρόσφατα ξεγέλασαν ένα μοντέλο Τεχνητής Νοημοσύνης ώστε να παρέχει οδηγίες σχετικές με βόμβες χρησιμοποιώντας ποίηση.
Οι κυβερνήσεις δεν έχουν σε μεγάλο βαθμό δημιουργήσει συστήματα αφιερωμένα στον έλεγχο της Τεχνητής Νοημοσύνης για κινδύνους ασφάλειας, όπως έχουν κάνει για βιομηχανίες όπως η ανάπτυξη φαρμάκων ή η κατασκευή αυτοκινήτων.
«Αυτό που με κρατάει ξύπνιο τη νύχτα είναι η σχετική ταχύτητα της τεχνολογίας σε σύγκριση με θεσμούς όπως οι κυβερνήσεις που πρέπει να ανταποκριθούν», δήλωσε η Jade Leung, σύμβουλος Τεχνητής Νοημοσύνης του Βρετανού Πρωθυπουργού Keir Starmer και επικεφαλής τεχνολογίας του Ινστιτούτου Ασφάλειας Τεχνητής Νοημοσύνης.
Το βρετανικό ινστιτούτο ασφαλείας προήλθε από μια συνάντηση του 2023 στην Downing St. Νο. 10 του Sunak και τριών από τους πιο αναγνωρισμένους ηγέτες Τεχνητής Νοημοσύνης στον κόσμο, τον Sam Altman της OpenAI, τον Dario Amodei της Anthropic και τον Demis Hassabis της Google DeepMind. Ο Sunak θυμήθηκε ότι έλεγαν ότι οι ικανότητες της Τεχνητής Νοημοσύνης επιταχύνονταν, με βαθιές επιπτώσεις στην κυβέρνηση, τις θέσεις εργασίας και την εθνική ασφάλεια.
«Ο ρυθμός ανάπτυξης είναι εκπληκτικός ακόμη και για αυτούς», είπε.
Τον Νοέμβριο του 2023, ο Sunak ανακοίνωσε τη δημιουργία του ινστιτούτου σε μια σύνοδο κορυφής παγκόσμιων ηγετών για την ασφάλεια της Τεχνητής Νοημοσύνης στο Bletchley Park, όπου ο Alan Turing και άλλοι έσπασαν γερμανικούς κώδικες κρυπτογράφησης κατά τη διάρκεια του Β’ Παγκοσμίου Πολέμου.
Το ινστιτούτο έχει γίνει πρότυπο για άλλους, δήλωσε η Olivia Shen, διευθύντρια του προγράμματος στρατηγικών τεχνολογιών στο Κέντρο Μελετών των Ηνωμένων Πολιτειών, ένα αυστραλιανό think tank στο Πανεπιστήμιο του Σίδνεϊ. Πέρυσι, η Leung του βρετανικού ινστιτούτου ταξίδεψε στην Αυστραλία για να συναντηθεί με κυβερνητικούς ηγέτες. Φέτος, η Αυστραλία άνοιξε το δικό της κέντρο ασφάλειας Τεχνητής Νοημοσύνης.
«Οι κυβερνήσεις πρέπει να προσπαθήσουν να καλύψουν τη διαφορά», δήλωσε η Shen, η οποία βοήθησε στην οργάνωση της επίσκεψης. «Με τον ρυθμό που εξελίσσεται η τεχνολογία, οι κυβερνήσεις χάνουν τον ρυθμό τους κάθε μέρα».
Το βρετανικό ινστιτούτο εργάζεται πάνω στους πιο σοβαρούς πιθανούς κινδύνους της προηγμένης Τεχνητής Νοημοσύνης: κυβερνοαπειλές, χημικά και βιολογικά όπλα και χειραγώγηση της ανθρώπινης συμπεριφοράς. Τις τελευταίες εβδομάδες, διαπίστωσε ότι μοντέλα Τεχνητής Νοημοσύνης από την Anthropic και την OpenAI θα μπορούσαν πολύ πιο γρήγορα να ολοκληρώσουν μια σύνθετη επίθεση εταιρικού δικτύου 32 βημάτων, η οποία συνήθως θα χρειαζόταν 20 ώρες για να ολοκληρωθεί από έναν έμπειρο χάκερ.
Ένας άλλος ερευνητικός τομέας είναι η μελέτη του κατά πόσον τα μοντέλα Τεχνητής Νοημοσύνης αναγνωρίζουν πότε δοκιμάζονται και αλλάζουν τη συμπεριφορά τους, μια εξέλιξη που θα σηματοδοτούσε το επίπεδο επίγνωσης και την ικανότητα της Τεχνητής Νοημοσύνης να εξαπατά.
Ο Adam Beaumont, προσωρινός διευθυντής του Ινστιτούτου Ασφάλειας Τεχνητής Νοημοσύνης, δήλωσε ότι ένας σημαντικός φόβος είναι η μίμηση της ανθρώπινης συμπεριφοράς από την τεχνολογία. Πέρυσι, το ινστιτούτο δημοσίευσε μια μελέτη που διαπίστωσε ότι τα chatbots μπορούν να επηρεάσουν τις πολιτικές απόψεις των ανθρώπων.
«Πολλοί άνθρωποι σε αυτό το κτίριο εξετάζουν όλα αυτά τα πράγματα», δήλωσε ο Beaumont, πρώην κορυφαίος αξιωματούχος Τεχνητής Νοημοσύνης στην GCHQ, την βρετανική υπηρεσία πληροφοριών, ασφάλειας και κυβερνοασφάλειας.
Ωστόσο, πολλοί φοβούνται ότι το έργο του ινστιτούτου είναι ανεπαρκές.
Ο βρετανικός όμιλος δεν έχει ρυθμιστική εξουσία και οι ερευνητές του δεν λαμβάνουν πληροφορίες σχετικά με το πώς εκπαιδεύονται και δημιουργούνται τα κορυφαία μοντέλα Τεχνητής Νοημοσύνης. Διατηρεί μεγάλο μέρος της έρευνάς του ιδιωτικό, μοιράζοντάς το μόνο με ορισμένες κυβερνητικές υπηρεσίες και εταιρείες.
Η πρόσληψη αποτελεί επίσης μια πρόκληση. Εκτός από τα ανώτερα στελέχη, οι εργαζόμενοί του μπορούν να κερδίζουν έως και 145.000 λίρες ετησίως (περίπου 195.000 δολάρια). Πολλοί έχουν εγκαταλείψει τα πακέτα αμοιβών πολλών εκατομμυρίων δολαρίων σε εταιρείες Τεχνητής Νοημοσύνης για να κάνουν αυτό που κάποιοι ονόμασαν κυβερνητική «θητεία».
Ο Ian Hogarth, ένας επενδυτής τεχνολογίας που συνίδρυσε το ινστιτούτο, ήταν ένας από τους πρώτους υποστηρικτές της Anthropic. Για να αποφύγει μια σύγκρουση συμφερόντων, πούλησε το μερίδιό του στην Anthropic αφού εντάχθηκε.
Η νεοσύστατη εταιρεία Τεχνητής Νοημοσύνης θα μπορούσε σύντομα να αξίζει 900 δισεκατομμύρια δολάρια, από περίπου 4 δισεκατομμύρια δολάρια στις αρχές του 2023.
«Έχω στεγαστικό δάνειο, οπότε δεν ήταν καθόλου ασήμαντη απόφαση», δήλωσε ο 44χρονος Hogarth, ο οποίος είναι τώρα πρόεδρος του ινστιτούτου. Πρόσθεσε ότι ήταν μια «ακριβή» επιλογή, αλλά η σωστή.
«Πιστεύω στη σημασία της σωστής εφαρμογής της τεχνολογίας και πιστεύω ότι η κυβέρνηση έχει να διαδραματίσει ρόλο», είπε.









