Τι είναι «data wall» και πώς μπορεί να επηρεάσει την ανάπτυξη της τεχνητής νοημοσύνης
Η τεχνητή νοημοσύνη «τρέχει» με πολύ γρήγορους ρυθμούς όμως η έλλειψη δεδομένων μπορεί να φρενάρει την ανάπτυξή της
Η τεχνητή νοημοσύνη έχει αρχίσει να βρίσκεται σιγά-σιγά μπροστά από ένα σοβαρό πρόβλημα το οποίο αν δεν λυθεί θα επηρεάσει σε σημαντικό βαθμό τις εταιρείες που κάνουν χρήση της αλλά και τα μεγάλα γλωσσικά τους μοντέλα. Το πρόβλημα αυτό, όπως σημειώνει σε δημοσίευμά του ο Economist ονομάζεται «data wall» και βάσει αυτού, αναμένεται πως όλα τα λεξιλογικά δεδομένα που θα μπορεί να χρησιμοποιήσουν οι εταιρείες ΑΙ θα τελειώσουν το 2028.
Το πώς θα αντιμετωπιστεί αυτό το τείχος είναι ένα από τα μεγάλα ερωτήματα της ΑΙ και ίσως το πιο πιθανό να επιβραδύνει την πρόοδό της. Το «data wall» εξηγεί και γιατί το Reddit, μια ηλεκτρονική πλατφόρμα που αποτελείται από μεγάλες συζητήσεις χρηστών που βασίζονται κατά κύριο λόγο σε λέξεις και όχι εικόνες έχει βρεθεί στο ενδιαφέρον των εταιρειών ΑΙ και ειδικότερα των Google και OpenAI.
- Πώς μπορεί να αποφευχθεί το data wall
Μια προσέγγιση, σημειώνει ο Economist είναι να επικεντρωθούν στην ποιότητα των δεδομένων και όχι στην ποσότητα. Τα εργαστήρια ΑΙ δεν εκπαιδεύουν απλώς τα μοντέλα τους σε ολόκληρο το διαδίκτυο. Φιλτράρουν τα δεδομένα για να μεγιστοποιήσουν το βαθμό εκμάθησης των μοντέλων τους.
Ο Ναβίν Ράο της Databricks, μιας εταιρείας τεχνητής νοημοσύνης, λέει ότι αυτό είναι το «βασικό διαφοροποιητικό στοιχείο» μεταξύ των μοντέλων τεχνητής νοημοσύνης στην αγορά. Οι «αληθινές πληροφορίες» για τον κόσμο έχουν προφανώς σημασία το ίδιο ισχύει και για τη «λογική». Αυτό καθιστά τα ακαδημαϊκά εγχειρίδια, για παράδειγμα, ιδιαίτερα πολύτιμα. Αλλά ο καθορισμός της ισορροπίας μεταξύ των πηγών δεδομένων παραμένει κάτι σαν «σκοτεινή» τέχνη. Επιπλέον, έχει σημασία και η σειρά με την οποία το σύστημα συναντά διαφορετικούς τύπους δεδομένων. Αν συγκεντρώσει κάποιος όλα τα δεδομένα για ένα θέμα, όπως τα μαθηματικά, στο τέλος της διαδικασίας εκπαίδευσης, το μοντέλο μπορεί να εξειδικευτεί στα μαθηματικά αλλά να ξεχάσει κάποιες άλλες έννοιες.
Αυτές οι εκτιμήσεις μπορεί να γίνουν ακόμη πιο πολύπλοκες όταν τα δεδομένα δεν αφορούν απλώς διαφορετικά θέματα αλλά διαφορετικές μορφές. Εν μέρει λόγω της έλλειψης νέων δεδομένων κειμένου, κορυφαία μοντέλα όπως το GPT-4 της OpenAI και το Gemini της Google δέχονται αρχεία εικόνας, βίντεο και ήχου καθώς και κείμενα κατά τη διάρκεια της αυτοεπιβλεπόμενης μάθησής τους. Η εκπαίδευση σε βίντεο είναι πιο δύσκολη, δεδομένου ότι τα αρχεία βίντεο είναι πυκνά σε δεδομένα. Τα τρέχοντα μοντέλα συνήθως εξετάζουν ένα υποσύνολο καρέ για να απλοποιήσουν τα πράγματα.
- Προσωπικά δεδομένα και τεχνητή νοημοσύνη
Όποια και αν είναι τα μοντέλα που χρησιμοποιούνται, η ιδιοκτησία αναγνωρίζεται όλο και περισσότερο ως ζήτημα. Το υλικό που χρησιμοποιείται στην εκπαίδευση των Μεγάλων Γλωσσικών Μοντέλων (LLMs) συχνά προστατεύεται από πνευματικά δικαιώματα και χρησιμοποιείται χωρίς τη συγκατάθεση ή την πληρωμή των κατόχων των δικαιωμάτων.
Η Getty Images μήνυσε την Stability ai, μια εταιρεία παραγωγής εικόνων, για μη εξουσιοδοτημένη χρήση των εικόνων της. Οι New York Times έχουν μηνύσει την OpenΑΙ και τη Microsoft για παραβίαση πνευματικών δικαιωμάτων εκατομμυρίων άρθρων. Άλλες εφημερίδες έχουν συνάψει συμφωνίες για την αδειοδότηση του περιεχομένου τους. Η News Corp, ιδιοκτήτρια της Wall Street Journal, υπέγραψε συμφωνία αξίας 250 εκατ. δολαρίων για πέντε χρόνια.
Οι δυνατότητες των μοντέλου μπορούν επίσης να βελτιωθούν όταν η έκδοση που παράγεται από την αυτοεπιβλεπόμενη μάθηση, γνωστή ως προ-εκπαιδευμένη έκδοση, βελτιώνεται με πρόσθετα δεδομένα κατά τη «μετεκπαίδευση». Καθώς τα δεδομένα προεκπαίδευσης στο διαδίκτυο στερεύουν, η «μετεκπαίδευση» είναι πιο σημαντική.
- Συνθετικά δεδομένα
Μια άλλη λύση για να μην έρθει σε τέλμα η τεχνητή νοημοσύνη θα ήταν η χρήση συνθετικών δεδομένων, τα οποία δημιουργούνται από μηχανές και συνεπώς είναι απεριόριστα, σημειώνει ο Economist.
Αντί να σπρώχνουμε το τείχος δεδομένων πίσω λίγο-λίγο, μια άλλη λύση θα ήταν να το υπερπηδήσουμε εντελώς. Μια προσέγγιση είναι η χρήση συνθετικών δεδομένων, τα οποία δημιουργούνται από μηχανές και συνεπώς είναι απεριόριστα.
Μια ακόμη δυσκολία έγκειται στην επέκταση της ΑΙ σε περιβάλλοντα όπως η υγειονομική περίθαλψη ή η εκπαίδευση. Στα τυχερά παιχνίδια, υπάρχει σαφής ορισμός της νίκης και είναι ευκολότερο να συλλεχθούν δεδομένα σχετικά με το αν μια κίνηση είναι συμφέρουσα. Αλλού είναι πιο δύσκολο. Τα δεδομένα σχετικά με το τι είναι μια «καλή» απόφαση συλλέγονται συνήθως από ειδικούς. Αλλά αυτό είναι δαπανηρό, απαιτεί χρόνο και είναι μόνο μια αποσπασματική λύση, ενώ ο εμπειρογνώμονας μπορεί να κάνει κάποιο λάθος.
Είναι σαφές ότι η πρόσβαση σε περισσότερα δεδομένα -είτε προέρχονται από εξειδικευμένες πηγές, είτε παράγονται συνθετικά είτε παρέχονται από ανθρώπινους εμπειρογνώμονες- είναι το κλειδί για τη διατήρηση της ταχείας προόδου στην ΑΙ. Όπως και τα κοιτάσματα πετρελαίου, τα πιο προσιτά αποθέματα δεδομένων έχουν εξαντληθεί. Η πρόκληση τώρα είναι να βρεθούν νέα ή βιώσιμες εναλλακτικές λύσεις, καταλήγει ο Economist.
Πηγή: ΟΤ