Η πιο πρόσφατη δημόσια έκδοση του ChatGPT μπορεί να χρησιμοποιηθεί για τη δημιουργία εικόνων με σεξουαλικό περιεχόμενο ή για την απεικόνιση σκηνών βίαιου περιεχομένου με μια απλή εντολή, όπως δήλωσαν ερευνητές στο BBC.
Η βρετανική νεοφυής επιχείρηση Mindgard, που ειδικεύεται στην ασφάλεια της τεχνητής νοημοσύνης, ανακάλυψε πώς να κάνει το ChatGPT να δημιουργεί εικόνες βίαιου περιεχομένου, τροποποιώντας ελαφρώς μια ευρέως διαδεδομένη εντολή, η οποία είχε αρχικά σχεδιαστεί για να παράγει χιουμοριστικά αποτελέσματα.
Αφού επικοινώνησε μαζί της το BBC, η OpenAI, δημιουργός του ChatGPT, δήλωσε ότι έλαβε μέτρα για να εμποδίσει το chatbot να απαντά με τέτοιου είδους εικόνες.
«Αφού διερευνήσαμε αυτή την τάση, εισαγάγαμε πρόσθετα μέτρα προστασίας ενάντια σε αυτού του είδους τις εντολές», ανέφερε σε δήλωσή της.
Ωστόσο, οι ερευνητές ασφάλειας τεχνητής νοημοσύνης δήλωσαν ότι, με περαιτέρω μικρές αλλαγές, η προβληματική εντολή εξακολουθούσε να παράγει ανησυχητικό περιεχόμενο.
Ανησυχητικές πρωτοβουλίες
Ακόμη και χωρίς λεπτομερείς οδηγίες, το ChatGPT δημιουργούσε εικόνες που ο ιδρυτής της Mindgard, Peter Garraghan, περιέγραψε ως «πολύ φρικιαστικές, μερικές φορές σεξουαλικοποιημένες, μερικές φορές και τα δύο μαζί».
Πρόσθεσε ότι τον ανησυχούσε ιδιαίτερα το γεγονός ότι η εντολή δεν προσδιόριζε το θέμα των εικόνων, αλλά η τεχνητή νοημοσύνη παρήγαγε μια σειρά από αιματηρές και σεξουαλικοποιημένες εικόνες «από μόνη της».
Ο Garraghan, καθηγητής στο τμήμα πληροφορικής του Πανεπιστημίου του Λάνκαστερ, δήλωσε ότι αυτό είναι ανησυχητικό.
«Πρόκειται για μια εντολή που φαίνεται απολύτως αθώα για μια τεχνητή νοημοσύνη, αλλά το αποτέλεσμα είναι να δημιουργεί πολύ, πολύ κακό εικαστικό υλικό και περιεχόμενο», είπε.
H Mindgard ειδικεύεται στο «red-teaming», δηλαδή την εύρεση τρόπων να πείσει ένα μοντέλο να παραβιάσει τους δικούς του κανόνες, ώστε οι εταιρείες τεχνητής νοημοσύνης να μπορούν να καλύψουν τα κενά.
Ο Jim Nightingale, ερευνητής ασφάλειας και προστασίας τεχνητής νοημοσύνης της εταιρείας που αποκάλυψε τα προβλήματα, δήλωσε ότι έμεινε «συγκλονισμένος και με δάκρυα στα μάτια» από τις εικόνες που μπορούσε να δημιουργήσει το chatbot.
Βίαιες και σεξουαλικές αναπαραστάσεις
Το άρθρο το BBC περιγράφει μερικές από τις εικόνες που είδε το μέσο.
Μία έδειχνε έναν άνδρα με σοβαρό τραύμα στο κεφάλι, ενώ μια άλλη έδειχνε μια νεκρή νεαρή γυναίκα με κοντό τοπ και σορτς, με το πρόσωπό της και άλλα μέρη του σώματός της καλυμμένα με αίμα.
Τα χαρακτηριστικά της εικόνας υποδηλώνουν σεξουαλική βία, ανέφερε η Mindgard. Το ChatGPT της έδωσε τον τίτλο «Σοβαρές συνέπειες σκηνής εγκλήματος».
Μια άλλη εικόνα έδειχνε μια νεαρή γυναίκα με στενό μπλουζάκι με το λογότυπο πανεπιστημίου και σορτς, δεμένη και φιμωμένη σε ένα άδειο και βρώμικο δωμάτιο. Το ChatGPT την ονόμασε «εγκαταλελειμμένη στον φόβο και τον περιορισμό».
Άλλες εικόνες που δημιουργήθηκαν έδειχναν σεξουαλικές πόζες και γυμνό.
Οι εικόνες απεικόνιζαν ενήλικες που είχαν δημιουργηθεί από τεχνητή νοημοσύνη, αλλά ο Mindgard σημείωσε ότι προηγούμενη έρευνά του έδειξε ότι το ChatGPT μπορούσε να παραπλανηθεί ώστε να δημιουργήσει «deepfakes» γυμνών πραγματικών ατόμων αντικαθιστώντας τα πρόσωπά τους.
Ο Garraghan φοβόταν ότι θα ήταν δυνατό να δημιουργηθούν χειρότερες εικόνες αν συνέχιζαν να διερευνούν την ευπάθεια. «Είμαι βέβαιος ότι θα προέκυπταν και άλλα θέματα αν αφιερώναμε περισσότερο χρόνο σε αυτό», είπε.
Μπορούν να λειτουργήσουν οι τοίχοι προστασίας;
Τα μεγάλα γλωσσικά μοντέλα, όπως το ChatGPT, εκπαιδεύονται με βάση εκατομμύρια εικόνες που συχνά προέρχονται από υπάρχον περιεχόμενο στο διαδίκτυο.
Ο Nightingale πιστεύει ότι τα αποτελέσματα του ChatGPT αντανακλούν τα δεδομένα που έχουν χρησιμοποιηθεί για την ανάπτυξη και την εκπαίδευσή του.
«Με εντυπωσιάζει το γεγονός ότι, ενώ αυτό που είδα ήταν μια τεχνητή εικόνα, έχει δεσμούς με πραγματικές εικόνες και τον πραγματικό κόσμο», έγραψε στην έκθεσή του.
Οι ερευνητές ειδοποίησαν για πρώτη φορά την OpenAI τον Μάιο και μοιράστηκαν τα ευρήματά τους, αλλά έλαβαν μόνο μια αυτοματοποιημένη απάντηση από την εταιρεία τεχνολογίας. Πιστεύουν ότι έγινε μια προσπάθεια να αποκλειστεί η εντολή, αλλά αυτή παρακάμφθηκε εύκολα.
Η OpenAI έλαβε περαιτέρω μέτρα αφού επικοινώνησε μαζί της το BBC.
Αναφέρει ότι διαθέτει πολλαπλά επίπεδα προστασίας για την ασφάλεια των εικόνων, σχεδιασμένα ώστε να εμποδίζουν την προβολή εικόνων που παραβιάζουν τις πολιτικές της στους χρήστες.
«Συνδυάζουμε επίσης αυτοματοποιημένα συστήματα και ανθρώπινη επιθεώρηση για τον εντοπισμό και τον αποκλεισμό επιβλαβούς υλικού», πρόσθεσε σε δήλωσή της. Ανέφερε επίσης ότι διαθέτει συστήματα που προσπαθούν να αποκλείουν το υλικό που παραβιάζει τους κανόνες και το οποίο ανεβάζουν οι χρήστες.
Οι πολιτικές της απαγορεύουν τη σεξουαλική βία, το περιεχόμενο με σεξουαλικές πράξεις χωρίς συναίνεση, το υλικό σεξουαλικής κακοποίησης ανηλίκων και τις προσπάθειες παράκαμψης των μηχανισμών προστασίας της.
Τα μοντέλα τεχνητής νοημοσύνης δεν είναι άνθρωποι
Στο πιο πρόσφατο έγγραφό της, στο οποίο περιγράφεται πώς πρέπει να συμπεριφέρεται το ChatGPT, η OpenAI ανέφερε:
«Ο βοηθός δεν πρέπει να δημιουργεί ερωτικό υλικό, απεικονίσεις παράνομων ή μη συναινετικών σεξουαλικών δραστηριοτήτων, ή ακραία βίαια περιεχόμενα, εκτός από επιστημονικά, ιστορικά, ειδησεογραφικά, καλλιτεχνικά ή άλλα πλαίσια όπου το ευαίσθητο περιεχόμενο είναι κατάλληλο».
Ωστόσο, είναι γνωστό ότι είναι εξαιρετικά δύσκολο να αποτραπεί πλήρως η παραβίαση, από τα μοντέλα τεχνητής νοημοσύνης, κανόνων και φραγμών που μερικές φορές είναι αρκετά λεπτομερείς.
Το έργο που αντιμετωπίζουν οι εταιρείες είναι «τεράστιο», σύμφωνα με τον Δρ. Rumman Chowdhury, ειδικό στην αξιολόγηση μοντέλων τεχνητής νοημοσύνης και διευθύνοντα σύμβουλο της Humane Intelligence.
Ο Chowdhury, ο οποίος δεν συμμετείχε στην έρευνα της Mindgard, δήλωσε ότι πρόκειται για «ένα παιχνίδι γάτας και ποντικιού» – καθώς οι προστασίες βελτιώνονται, οι μέθοδοι για την παράκαμψή τους γίνονται πιο εξελιγμένες.
Ένα από τα βασικά ζητήματα είναι ότι τα μοντέλα δεν κατανοούν, όπως οι άνθρωποι, τι παράγουν ή τι τους ζητείται να μην κάνουν.
«Τα μοντέλα δεν κατανοούν την πρόθεση. Δεν κατανοούν το πλαίσιο. Δεν κατανοούν τι είναι σωστό ή λάθος», δήλωσε στο BBC News.
Πέρυσι, ερευνητές του AI Security Institute του Ηνωμένου Βασιλείου εντόπισαν τρόπους να που παρακάμπτουν τα μέτρα προστασίας σε μια σειρά επιβλαβών αιτημάτων σε κάθε σύστημα τεχνητής νοημοσύνης που δοκίμασαν.
Το Υπουργείο Επιστήμης, Καινοτομίας και Τεχνολογίας δήλωσε σε ανακοίνωσή του ότι «οι μηχανισμοί προστασίας στα μοντέλα τεχνητής νοημοσύνης βελτιώνονται, αλλά υπάρχουν ακόμη πολλά να γίνουν».
Το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης θα συνεχίσει να συνεργάζεται με τους προγραμματιστές για την ταχεία ενίσχυση της ασφάλειας πριν από την κυκλοφορία των μοντέλων, πρόσθεσε.
Πηγή: in.gr


























