ΕΛ/ΛΑΚ | mycontent.ellak.gr |
freedom

Εξερευνώντας την δημιουργία ενός Books Data Commons για την Εκπαίδευση της ΤΝ

Το έργο των Creative Commons για τα πνευματικά δικαιώματα έχει επικεντρωθεί εδώ και καιρό στην υποστήριξη βιβλιοθηκών και αρχείων στην υπηρεσία της αποστολής τους για τη διατήρηση και τη διασφάλιση της πρόσβασης στον πολιτισμό. Η μεταρρυθμιστική ατζέντα των CC για τα πνευματικά δικαιώματα επικεντρώνεται σε αυτούς τους θεσμούς (και γενικότερα τα GLAM) και τον κρίσιμο ρόλο που διαδραματίζουν στην κοινωνία. Μεταξύ άλλων, αυτή η ατζέντα εφιστά την προσοχή στους τρόπους με τους οποίους τα πνευματικά δικαιώματα ενδέχεται να εμποδίσουν τις βιβλιοθήκες και τα αρχεία που επιθυμούν να διαθέσουν τις συλλογές τους για ερευνητικές χρήσεις, συμπεριλαμβανομένης της χρήσης για εκπαίδευση τεχνητής νοημοσύνης προκειμένου να εκπληρώσουν τις αποστολές τους δημόσιου συμφέροντος.

Αυτό το ζήτημα – η εκπαίδευση της τεχνητής νοημοσύνης – γίνεται όλο και πιο επίκαιρο. Η έννοια της μαζικής ψηφιοποίησης βιβλίων, συμπεριλαμβανομένης της υποστήριξης της εξόρυξης κειμένου και δεδομένων, της οποίας η εκπαίδευση τεχνητής νοημοσύνης αποτελεί υποσύνολο, δεν είναι νέα. Ωστόσο, η εκπαίδευση της τεχνητής νοημοσύνης και η μετασχηματιστική χρήση της δημιουργεί ερωτήματα σχετικά με το πώς ψηφιοποιούμε, διατηρούμε και κάνουμε την προσβάσιμη γνώση και την πολιτιστική κληρονομιά να ξεχωρίζουν με έναν ξεχωριστό τρόπο.

Το 2023, πολλαπλές δημοσιεύσεις έχουν αναφερθεί σχετικά με τη διαθεσιμότητα και τη χρήση ενός συνόλου δεδομένων βιβλίων που ονομάζονται «Books3» για την εκπαίδευση μεγάλων γλωσσικών μοντέλων (LLM), μια μορφή εργαλείου δημιουργίας τεχνητής νοημοσύνης.  Το σύνολο δεδομένων Books3 περιέχει κείμενο από περισσότερα από 170.000 βιβλία, τα οποία είναι ένας συνδυασμός έργων που προστατεύονται από πνευματικά δικαιώματα και έργα εκτός πνευματικής ιδιοκτησίας. Πιστεύεται ότι προήλθε αρχικά από έναν ιστότοπο που δεν ήταν εξουσιοδοτημένος να διανείμει όλα τα έργα σε αυτόν. Σε αγωγές που ασκήθηκαν κατά των OpenAI, Microsoft, Meta και Bloomberg σχετικά με τα LLM τους, αναφέρθηκε συγκεκριμένα η χρήση του Books3 ως δεδομένων εκπαίδευσης. 

Η διαμάχη για το Books3 υπογραμμίζει ένα κρίσιμο ερώτημα στο επίκεντρο της δημιουργικής τεχνητής νοημοσύνης: τι ρόλο παίζουν τα βιβλία στην εκπαίδευση μοντέλων τεχνητής νοημοσύνης και πώς θα μπορούσαν να γίνουν ευρέως προσβάσιμα τα ψηφιοποιημένα βιβλία για τους σκοπούς της εκπαίδευσης της τεχνητής νοημοσύνης για το κοινό καλό; Τι σύνολο δεδομένων βιβλίων θα μπορούσε να δημιουργηθεί και υπό ποιες συνθήκες; 

Νωρίτερα φέτος, τα Creative Commons συνεργάστηκαν με το  Open Future και το  Proteus Strategies σε μια σειρά εργαστηρίων για τη διερεύνηση αυτών των ερωτημάτων και άλλων. Συγκεντρώθηκαν επαγγελματίες από πρώτη γραμμή της κατασκευής μοντέλων τεχνητής νοημοσύνης επόμενης γενιάς, καθώς και νομικοί και μελετητές πολιτικών με εξειδίκευση στα πνευματικά δικαιώματα και τις προκλήσεις αδειοδότησης γύρω από τα ψηφιοποιημένα βιβλία. Στόχος ήταν επίσης να γεφυρωθεί η προοπτική των διαχειριστών των αποθετηρίων περιεχομένου, όπως οι βιβλιοθήκες, με αυτή των προγραμματιστών AI. Η δημιουργία “books data commons” πρέπει να είναι κάτω από υπεύθυνη διαχείριση αλλά να είναι και χρήσιμο για τους προγραμματιστές μοντέλων AI. Με βάση αυτούς τους στόχους, τα Creative Commons, δημοσίευσαν μια μελέτη  με  βάση αυτά τα εργαστήρια και πρόσθετη έρευνα. 

Αν και αυτό το έγγραφο δεν προδιαγράφει μια συγκεκριμένη πορεία προς τα εμπρός, πιστεύουμε ότι είναι σημαντικό να προχωρήσουμε πέρα ​​από το status quo. Σήμερα, μεγάλα κομμάτια γνώσης που περιέχονται στα βιβλία είναι ουσιαστικά κλειδωμένα και απρόσιτα για τους περισσότερους. Οι μεγάλες εταιρείες έχουν τεράστια πλεονεκτήματα όσον αφορά την πρόσβαση σε βιβλία για εκπαίδευση τεχνητής νοημοσύνης (και γενικά την πρόσβαση σε δεδομένα). Ταυτόχρονα, όπως υπογραμμίζει το έγγραφο, υπάρχουν ήδη σχετικά παραδείγματα μη κερδοσκοπικών προσπαθειών και προσπαθειών που καθοδηγούνται από βιβλιοθήκες για την παροχή υπεύθυνης, δίκαιης πρόσβασης στα βιβλία για πολλά περισσότερα άτομα, όχι μόνο για τους λίγους προνομιούχους. Ελπίζουμε ότι αυτή η εργασία μπορεί να υποστηρίξει περαιτέρω έρευνα, συνεργασία και επένδυση σε αυτόν τον χώρο.

Διαβάστε ολόκληρη την μελέτη .

Πηγή άρθρου: https://creativecommons.org/

Leave a Comment