Ένας νέος τρόπος για να επιτρέψετε στα chatbots AI να συνομιλούν όλη την ημέρα χωρίς να κολλάνε | Ειδήσεις MIT

By | February 13, 2024

Όταν μια συνομιλία ανθρώπου-AI περιλαμβάνει πολλούς γύρους συνεχούς διαλόγου, τα ισχυρά μοντέλα μηχανικής εκμάθησης μεγάλης κλίμακας που οδηγούν chatbots όπως το ChatGPT αρχίζουν μερικές φορές να καταρρέουν, οδηγώντας σε ταχεία επιδείνωση της απόδοσης του bot.

Μια ομάδα ερευνητών από το MIT και αλλού εντόπισε μια εκπληκτική αιτία αυτού του προβλήματος και ανέπτυξε μια απλή λύση που επιτρέπει σε ένα chatbot να διατηρεί μια συνομιλία ασταμάτητα χωρίς να κολλάει ή να επιβραδύνει.

Η μέθοδός τους περιλαμβάνει μια τροποποίηση της κρυφής μνήμης κλειδιού-τιμής (η οποία είναι σαν μια μνήμη συνομιλίας) στην καρδιά πολλών μεγάλων μοντέλων γλώσσας. Σε ορισμένες μεθόδους, όταν αυτή η κρυφή μνήμη χρειάζεται να περιέχει περισσότερες πληροφορίες από όσες έχει χωρητικότητα, τα πρώτα κομμάτια δεδομένων απορρίπτονται. Αυτό μπορεί να προκαλέσει την αποτυχία του μοντέλου.

Διασφαλίζοντας ότι αυτά τα πρώιμα σημεία δεδομένων παραμένουν στη μνήμη, η μέθοδος των ερευνητών επιτρέπει σε ένα chatbot να συνεχίσει να συνομιλεί ανεξάρτητα από τη διάρκεια της συνομιλίας.

Η μέθοδος, που ονομάζεται StreamingLLM, επιτρέπει σε ένα μοντέλο να παραμένει αποτελεσματικό ακόμα και όταν μια συνομιλία εκτείνεται σε περισσότερες από 4 εκατομμύρια λέξεις. Σε σύγκριση με μια άλλη μέθοδο που αποφεύγει τα σφάλματα υπολογίζοντας συνεχώς μέρος των προηγούμενων συνομιλιών, το StreamingLLM απέδωσε περισσότερες από 22 φορές πιο γρήγορα.

Αυτό θα μπορούσε να επιτρέψει σε ένα chatbot να διεξάγει μεγάλες συνομιλίες κατά τη διάρκεια της εργάσιμης ημέρας χωρίς να χρειάζεται συνεχή επανεκκίνηση, επιτρέποντας αποτελεσματικούς βοηθούς AI για εργασίες όπως η συγγραφή, η επεξεργασία ή η δημιουργία κώδικα.

«Τώρα, χρησιμοποιώντας αυτή τη μέθοδο, μπορούμε να αναπτύξουμε επίμονα αυτά τα μεγάλα γλωσσικά μοντέλα. Δημιουργώντας ένα chatbot με το οποίο μπορούμε πάντα να συνομιλούμε και που μπορεί πάντα να μας ανταποκρίνεται με βάση τις πρόσφατες συνομιλίες μας, θα μπορούσαμε να χρησιμοποιήσουμε αυτά τα chatbots σε νέες εφαρμογές», λέει ο Guangxuan Xiao, μεταπτυχιακός φοιτητής Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών (EECS). και κύριος συγγραφέας ενός άρθρου για το StreamingLLM.

Οι συν-συγγραφείς του Xiao περιλαμβάνουν τον σύμβουλό του, Song Han, αναπληρωτή καθηγητή στο EECS, μέλος του MIT-IBM Watson AI Lab και διακεκριμένο επιστήμονα στη NVIDIA. καθώς και ο Yuandong Tian, ​​ερευνητής στο Meta AI. Beidi Chen, επίκουρος καθηγητής στο Πανεπιστήμιο Carnegie Mellon. και ο επικεφαλής συγγραφέας Mike Lewis, ερευνητής στο Meta AI. Η εργασία θα παρουσιαστεί στο Διεθνές Συνέδριο για τις Εκπαιδευτικές Αναπαραστάσεις.

Ένα συγκεχυμένο φαινόμενο

Τα μεγάλα μοντέλα γλώσσας κωδικοποιούν δεδομένα, όπως λέξεις σε ένα ερώτημα χρήστη, σε αναπαραστάσεις που ονομάζονται tokens. Πολλά μοντέλα χρησιμοποιούν αυτό που ονομάζεται μηχανισμός προσοχής που χρησιμοποιεί αυτά τα διακριτικά για να δημιουργήσει νέο κείμενο.

Συνήθως, ένα chatbot AI γράφει νέο κείμενο με βάση το κείμενο που μόλις είδε. Ως εκ τούτου, αποθηκεύει πρόσφατα διακριτικά στη μνήμη, που ονομάζεται κρυφή μνήμη KV, για χρήση αργότερα. Ο μηχανισμός προσοχής κατασκευάζει ένα πλέγμα που περιλαμβάνει όλα τα διακριτικά της κρυφής μνήμης, έναν «χάρτη προσοχής» που υποδεικνύει τη σχέση κάθε διακριτικού ή λέξης μεταξύ τους.

Η κατανόηση αυτών των σχέσεων είναι ένα χαρακτηριστικό που επιτρέπει σε μεγάλα γλωσσικά μοντέλα να δημιουργούν κείμενο που μοιάζει με άνθρωπο.

Αλλά όταν η κρυφή μνήμη γίνεται πολύ μεγάλη, ο χάρτης προσοχής μπορεί να γίνει ακόμη μεγαλύτερος, γεγονός που επιβραδύνει τον υπολογισμό.

Επιπλέον, εάν η κωδικοποίηση περιεχομένου απαιτεί περισσότερα διακριτικά από όσα μπορεί να χωρέσει η κρυφή μνήμη, η απόδοση του μοντέλου μειώνεται. Για παράδειγμα, ένα δημοφιλές μοντέλο μπορεί να αποθηκεύσει 4.096 μάρκες, ενώ υπάρχουν περίπου 10.000 μάρκες σε μια ακαδημαϊκή εργασία.

Για να ξεπεράσουν αυτά τα προβλήματα, οι ερευνητές χρησιμοποιούν μια «συρόμενη προσωρινή μνήμη» που διαγράφει τα παλαιότερα διακριτικά για να προσθέσουν νέα. Ωστόσο, η απόδοση του μοντέλου συχνά πέφτει μόλις αφαιρεθεί το πρώτο διακριτικό, μειώνοντας γρήγορα την ποιότητα των λέξεων που δημιουργήθηκαν πρόσφατα.

Σε αυτό το νέο έγγραφο, οι ερευνητές συνειδητοποίησαν ότι αν διατηρούσαν το πρώτο διακριτικό στη συρόμενη κρυφή μνήμη, το μοντέλο θα διατηρούσε την απόδοσή του ακόμη και όταν ξεπερνούσε το μέγεθος της κρυφής μνήμης.

Αλλά αυτό δεν είχε κανένα νόημα. Η πρώτη λέξη ενός μυθιστορήματος πιθανώς δεν έχει καμία σχέση με την τελευταία λέξη, οπότε γιατί η πρώτη λέξη θα ήταν τόσο σημαντική για το μοντέλο για να δημιουργήσει τη νεότερη λέξη;

Στη νέα τους εργασία, οι ερευνητές ανακάλυψαν επίσης την αιτία αυτού του φαινομένου.

Η προσοχή μειώνεται

Ορισμένα μοντέλα χρησιμοποιούν μια λειτουργία Softmax στον μηχανισμό προσοχής τους, ο οποίος εκχωρεί μια βαθμολογία σε κάθε διακριτικό που αντιπροσωπεύει τη σχέση του με άλλα διακριτικά. Η λειτουργία Softmax απαιτεί όλες οι βαθμολογίες προσοχής να αθροίζονται σε 1. Καθώς τα περισσότερα διακριτικά δεν σχετίζονται στενά, οι βαθμολογίες προσοχής τους είναι πολύ χαμηλές. Το μοντέλο αφαιρεί τυχόν υπολειπόμενο βαθμό προσοχής στο πρώτο διακριτικό.

Οι ερευνητές αποκαλούν αυτό το πρώτο σύμβολο «καταβόθρα προσοχής».

«Χρειαζόμαστε έναν δέκτη προσοχής και το μοντέλο αποφασίζει να χρησιμοποιήσει το πρώτο διακριτικό ως δέκτη προσοχής επειδή είναι παγκοσμίως ορατό – όλα τα άλλα διακριτικά μπορούν να το δουν. Διαπιστώσαμε ότι πρέπει πάντα να δίνουμε προσοχή στην κρυφή μνήμη για να διατηρήσουμε τη δυναμική του μοντέλου», λέει ο Han.

Κατά τη δημιουργία του StreamingLLM, οι ερευνητές ανακάλυψαν ότι η ύπαρξη τεσσάρων διακριτικών δέκτη προσοχής στην αρχή της συρόμενης κρυφής μνήμης οδηγεί σε βέλτιστη απόδοση.

Διαπίστωσαν επίσης ότι η κωδικοποίηση θέσης κάθε διακριτικού θα πρέπει να παραμείνει η ίδια, ακόμη και όταν προστίθενται νέα διακριτικά και αφαιρούνται άλλα. Εάν το διακριτικό 5 διαγραφεί, το διακριτικό 6 θα πρέπει να παραμείνει κωδικοποιημένο ως 6, παρόλο που είναι τώρα το πέμπτο διακριτικό στην κρυφή μνήμη.

Συνδυάζοντας αυτές τις δύο ιδέες, επέτρεψαν στο StreamingLLM να διατηρήσει μια συνεχή συνομιλία, ενώ ξεπέρασε τις επιδόσεις μιας δημοφιλής μέθοδος που χρησιμοποιεί τον επαναυπολογισμό.

Για παράδειγμα, όταν η κρυφή μνήμη περιέχει 256 διακριτικά, η μέθοδος επανυπολογισμού χρειάζεται 63 χιλιοστά του δευτερολέπτου για την αποκωδικοποίηση ενός νέου διακριτικού, ενώ το StreamingLLM χρειάζεται 31 χιλιοστά του δευτερολέπτου. Ωστόσο, εάν το μέγεθος της κρυφής μνήμης φτάσει τα 4.096 διακριτικά, ο επανυπολογισμός απαιτεί 1.411 χιλιοστά του δευτερολέπτου για ένα νέο διακριτικό, ενώ το StreamingLLM χρειάζεται μόνο 65 χιλιοστά του δευτερολέπτου.

«Η καινοτόμος προσέγγιση του StreamingLLM, με επίκεντρο τον μηχανισμό προσοχής, εξασφαλίζει σταθερή χρήση μνήμης και απόδοση ακόμα και κατά την επεξεργασία κειμένων μήκους έως και 4 εκατομμυρίων tokens», λέει ο Yang You, Νέος Προεδρικός Καθηγητής Επιστήμης Υπολογιστών στο Εθνικό Πανεπιστήμιο της Σιγκαπούρης, ο οποίος δεν συμμετέχουν σε αυτή την εργασία. «Αυτή η ικανότητα δεν είναι μόνο εντυπωσιακή. είναι μετασχηματιστικό, επιτρέποντας την εφαρμογή του StreamingLLM σε ένα ευρύ φάσμα εφαρμογών τεχνητής νοημοσύνης. Η απόδοση και η ευελιξία του StreamingLLM το καθιστούν μια πολλά υποσχόμενη τεχνολογία, έτοιμη να φέρει επανάσταση στον τρόπο με τον οποίο προσεγγίζουμε τις εφαρμογές παραγωγής που βασίζονται στην τεχνητή νοημοσύνη.

Ο Tianqi Chen, επίκουρος καθηγητής στα τμήματα μηχανικής μάθησης και επιστήμης υπολογιστών στο Πανεπιστήμιο Carnegie Mellon, ο οποίος επίσης δεν συμμετείχε σε αυτή την έρευνα, συμφωνεί, λέγοντας ότι «Η ροή LLM επιτρέπει την ομαλή επέκταση της διάρκειας συνομιλίας μεγάλων γλωσσικών μοντέλων. Το χρησιμοποιούμε για να επιτρέψουμε την ανάπτυξη μοντέλων Mistral στο iPhone με μεγάλη επιτυχία.

Οι ερευνητές διερεύνησαν επίσης τη χρήση των δεκτών προσοχής κατά τη διάρκεια της εκπαίδευσης μοντέλων προσθέτοντας πολλαπλά σύμβολα κράτησης θέσης σε όλα τα δείγματα εκπαίδευσης.

Βρήκαν ότι η εκπαίδευση με υποδοχείς προσοχής επέτρεψε σε ένα μοντέλο να διατηρήσει την απόδοση με μόνο έναν υποδοχέα προσοχής στην κρυφή μνήμη του, αντί των τεσσάρων που συνήθως απαιτούνται για τη σταθεροποίηση της απόδοσης ενός προεκπαιδευμένου μοντέλου.

Ωστόσο, παρόλο που το StreamingLLM επιτρέπει σε ένα μοντέλο να διεξάγει μια συνεχή συνομιλία, το μοντέλο δεν μπορεί να θυμηθεί λέξεις που δεν είναι αποθηκευμένες στην κρυφή μνήμη. Στο μέλλον, οι ερευνητές σχεδιάζουν να στοχεύσουν αυτόν τον περιορισμό διερευνώντας μεθόδους για την ανάκτηση διακριτικών που έχουν αποβληθεί ή να επιτρέψουν στο μοντέλο να θυμάται προηγούμενες συνομιλίες.

Το StreamingLLM έχει ενσωματωθεί στη μεγάλη βιβλιοθήκη βελτιστοποίησης γλωσσικών μοντέλων της NVIDIA, TensorRT-LLM.

Αυτή η εργασία χρηματοδοτείται εν μέρει από το MIT-IBM Watson AI Lab, το MIT Science Hub και το Εθνικό Ίδρυμα Επιστημών των ΗΠΑ.

Leave a Reply

Your email address will not be published. Required fields are marked *