Το τελευταίο τεστ της ανθρωπότητας: Η τεχνητή νοημοσύνη δεν έχει καμία πιθανότητα στη δοκιμή!
Το Πανεπιστήμιο του Ρουρ στο Μπόχουμ συμμετέχει στο «Humanity’s Last Exam», ένα νέο σημείο αναφοράς για την αξιολόγηση των δυνατοτήτων τεχνητής νοημοσύνης.

Το τελευταίο τεστ της ανθρωπότητας: Η τεχνητή νοημοσύνη δεν έχει καμία πιθανότητα στη δοκιμή!
Την 1η Απριλίου 2025, παρουσιάστηκε το σύνολο δεδομένων αναφοράς «Humanity’s Last Exam», ειδικά σχεδιασμένο για τη δοκιμή των δυνατοτήτων της Γενετικής Τεχνητής Νοημοσύνης (AI). Αυτό το σύνολο δεδομένων περιέχει 550 ερωτήσεις που επιλέχθηκαν από περισσότερες από 70.000 υποβολές. Οι μαθηματικοί από το Πανεπιστήμιο του Ρουρ του Μπόχουμ, Καθ. Δρ. Κρίστιαν Σταμπ και Καθ. Δρ. Αλεξάντερ Ιβάνοφ, συνεισέφεραν ενεργά με τρεις ερωτήσεις στο σύνολο δεδομένων του τεστ. Περίπου 1.000 ειδικοί από 50 χώρες συνέβαλαν στη σύνταξη των ερωτήσεων. Για να διασφαλιστεί η ακεραιότητα του τεστ, επιλέχθηκαν μόνο μη δημοσιευμένες ερωτήσεις, έτσι ώστε τα μοντέλα τεχνητής νοημοσύνης να μην μπορούν απλώς να αναζητήσουν τις απαντήσεις στο Διαδίκτυο.
Μια ιδιαίτερα αξιοσημείωτη πτυχή του συνόλου δεδομένων είναι ότι το 40 τοις εκατό των ερωτήσεων προέρχεται από τον τομέα των μαθηματικών. Αυτές οι ερωτήσεις έχουν τη δυνατότητα να χρησιμοποιηθούν ως βάση για διδακτορικές διατριβές. Επιπλέον, αποδεικνύεται ότι όσο πιο αφηρημένες είναι οι ερωτήσεις, τόσο καλύτερα μπορούν να φωτιστούν οι αλυσίδες συλλογισμού των AI. Παρά αυτή την περίπλοκη δομή, τα AI που δοκιμάστηκαν ήταν σε θέση να απαντήσουν ουσιαστικά μόνο στο εννέα τοις εκατό των ερωτήσεων. Τα μοντέλα έδιναν σταθερά άχρηστες απαντήσεις στις υπόλοιπες ερωτήσεις. Αυτό αποκαλύπτει τις προκλήσεις στη δοκιμή της νοημοσύνης και των προσανατολισμένων στο πρόβλημα δυνατοτήτων των τεχνητών νοημοσύνης.
Σημασία των σημείων αναφοράς για τις εξελίξεις της τεχνητής νοημοσύνης
Η εισαγωγή του «Humanity’s Last Exam» (HLE) σηματοδοτεί ένα σημαντικό βήμα στην αξιολόγηση μεγάλων γλωσσικών μοντέλων. Τα προηγούμενα σημεία αναφοράς ήταν συχνά ανεπαρκή για τη μέτρηση της σημαντικής προόδου στα μοντέλα, καθώς τα τρέχοντα σημεία αναφοράς όπως το MMLU πληρούνται από τα μοντέλα με ακρίβεια άνω του 90 τοις εκατό. Ωστόσο, αυτό το υψηλό επίπεδο ακρίβειας περιορίζει τη δυνατότητα ρεαλιστικής αξιολόγησης των πραγματικών δυνατοτήτων των μοντέλων. Ως εκ τούτου, το σύνολο δεδομένων «HLE» στοχεύει να είναι η τελευταία κλειστή ακαδημαϊκή αξιολόγηση που καλύπτει ένα ευρύ φάσμα θεμάτων.
Το «HLE» περιλαμβάνει συνολικά 3.000 ερωτήσεις σε διάφορους κλάδους, συμπεριλαμβανομένων των μαθηματικών, των ανθρωπιστικών επιστημών και των επιστημών. Το σύνολο δεδομένων περιέχει ερωτήσεις πολλαπλής επιλογής και ερωτήσεις σύντομης απάντησης κατάλληλες για αυτόματη βαθμολόγηση. Κάθε ερώτηση έχει μια σαφή, επαληθεύσιμη λύση και δεν μπορεί να απαντηθεί γρήγορα με μια απλή αναζήτηση στο διαδίκτυο. Τα τρέχοντα μοντέλα γλώσσας παρουσιάζουν χαμηλή ακρίβεια και βαθμονόμηση όταν δοκιμάζονται με "HLE", υποδεικνύοντας ένα σημαντικό χάσμα μεταξύ των δυνατοτήτων των μοντέλων και της απόδοσης των ανθρώπινων ειδικών σε ακαδημαϊκές ερωτήσεις κλειστού τύπου. Αυτό υπογραμμίζει τις προκλήσεις που αντιμετωπίζει η βαθμολόγηση της τρέχουσας ανάπτυξης της τεχνητής νοημοσύνης και υπογραμμίζει την επείγουσα ανάγκη για συνεχή επανεξέταση της προόδου σε αυτόν τον τομέα.
Για όσους ενδιαφέρονται, το "HLE" είναι δημόσια διαθέσιμο και οι χρήστες ενθαρρύνονται να αναφέρουν την εργασία όταν το σύνολο δεδομένων χρησιμοποιείται στην έρευνα. Αυτή η πρωτοβουλία θα μπορούσε να επηρεάσει σημαντικά τα μελλοντικά πρότυπα και τις προσδοκίες για τα εργαλεία εκπαίδευσης και αξιολόγησης που βασίζονται σε τεχνητή νοημοσύνη. Προκειμένου να συνεχιστεί η κριτική παρακολούθηση των εξελίξεων στον τομέα της τεχνητής νοημοσύνης και των επιδόσεών της, τέτοια σημεία αναφοράς είναι απαραίτητα.