Η εξόρυξη κειμένου και δεδομένων (text and data mining ‐ TDM), ως επιστημονική τεχνική, θεωρείται όλο και πιο σημαντική για την ανάλυση μεγάλου όγκου δεδομένων. Η τεχνική της TDM χρησιμοποιείται για να αποκαλύψει τόσο υπάρχουσες όσο και νέες ιδέες για τα μη δομημένα σύνολα δεδομένων που συνήθως λαμβάνονται προγραμματιστικά από πολλές διαφορετικές πηγές.
Ενδεικτικό παράδειγμα καινοτόμου εφαρμογής TDM, στο χώρο της γεωλογίας, αποτελεί το GeoDeepDive, το οποίο παρέχει τη δυνατότητα αναζήτησης πληροφοριών και γνώσης σε κείμενα, πίνακες και στοιχεία από άρθρα περιοδικών του χώρου. Αντίστοιχα, στον τομέα της υγείας, αναφέρουμε τη βάση δεδομένων Συγκριτικής Τοξικογονιδιωματικής (δείτε επίσης πώς βοηθάει στη βελτίωση των θεραπείων χημικών-γονιδιακών ασθενειών) καθώς και την εφαρμογή της TDM στην ανακάλύψη μιας νέας σύνδεσης μεταξύ των γονιδίων και της οστεοπόρωσης.
Νομική Αβεβαιότητα
Η επιστήμη και η τεχνολογία της TDM περιλαμβάνουν αρκετά περίπλοκες διαδικασίες, όπως ανάκτηση πληροφοριών (information retrieval ‐ IR), οπτική αναγνώριση χαρακτήρων (optical character recognition ‐ OCR) και επεξεργασία φυσικής γλώσσας (natural language processing ‐ NLP). Εξίσου περίπλοκες, όμως, είναι και οι νομικές επιπλοκές της τεχνικής της TDM. Το νομικό καθεστώς που επικρατεί σε σχέση με τη TDM είναι, στην καλύτερη περίπτωση, ασαφές. Αυτό οφείλεται αφενός στις πολλαπλές τεχνικές και τεχνολογίες που χρησιμοποιούνται, και αφετέρου στη μεγάλη διαβάθμιση που υπάρχει σχετικά με τις επιπτώσεις από τη χρήση των τεχνικών αυτών. Το γεγονός αυτό δυσχεραίνει τη διεθνή συνεργασία και, κατά συνέπεια, την επιστημονική έρευνα. Για παράδειγμα, στις Η.Π.Α. η TDM θεωρείται ότι δεν εγείρει επιπλοκές πνευματικής ιδιοκτησίας (copyright). Υπάρχουν διάφορες θεωρίες ως προς το γιατί η TDM δεν εμπίπτει στη νομοθεσία περί πνευματικής ιδιοκτησίας, αλλά η πιο προφανής είναι ότι χρησιμοποιεί το πρωτογενές υλικό για μετασχηματιστικό σκοπό, και ως εκ τούτου αποτελεί δίκαιη χρήση. Ο δικαστής Baer, αναφέρει στο Author’s Guild, Inc., et. al. v. Hathi Trust, et. al. (Case 1:11-cv-06351-HB):
«Η χρήση στην οποία υπόκεινται τα έργα στο HDL είναι μετασχηματιστική καθώς τα αντίγραφα εξυπηρετούν εντελώς διαφορετικό σκοπό απ’ ότι τα αρχικά έργα. Ο σκοπός αυτός είναι η δυνατότητα προηγμένης αναζήτησης και όχι η απευθείας πρόσβαση στο copyrighted υλικό. Οι δυνατότητες αναζήτησης του HDL έχουν ήδη οδηγήσει σε νέες μεθόδους ακαδημαϊκής έρευνας, όπως η εξόρυξη κειμένου.»
Ο δικαστής Baer συνεχίζει:
«Δε μπορώ να φανταστώ έναν ορισμό της δίκαιης χρήσης που δεν θα περικλείει τη μετασχηματιστική χρήση από το σύστημα Μαζικής Ψηφιοποίησης (Mass Digitization Project ‐ MDP) των κατηγορουμένων, και που θα απαιτούσε να σταματήσω αυτή την ανεκτίμητη συμβολή στην πρόοδο της επιστήμης και την καλλιέργεια των τεχνών.»
Η σαφήνεια αυτή, ωστόσο, απέχει πολύ από το να θεωρηθεί καθολική, καθώς η κατάσταση εκτός των Η.Π.Α. παραμένει θολή. Παρόλο που έχουν υπάρξει αρκέτες θετικές εξελίξεις στο Ηνωμένο Βασίλειο, οι νόμοι πνευματικής ιδιοκτησίας άλλων χωρών έχουν ελάχιστη, έως καθόλου, σαφήνεια σχετικά με το αν η TDM εμπίπτει εντός του πλαισίου της νομοθεσίας για τα δικαιώματα πνευματικής ιδιοκτησίας και των συναφών νόμων. Όταν η TDM εμπλέκεται με το copyright, η άδεια χρήσης του αρχικού υλικού μπορεί να περιπλέξει ιδιαίτερα την αυτοματοποιημένη πρόσβαση και ανάλυση σε αυτό, καθώς απαιτούνται πρόσθετοι έλεγχοι προκειμένου να εξασφαλιστεί ότι η χρήση του αρχικού υλικού επιτρέπεται από την άδεια του. Επίσης, ακόμα και όταν οι σχετικές άδειες χρήσεις είναι ελεύθερες και ανοικτές, οπότε και ευνοούν τη TDM, οι συμβάσεις μεταξύ ερευνητικών ιδρυμάτων και εκδοτών — οι τελευταίοι αποτελούν, συχνά, τους δεσμοφύλακες της γνώσης — μπορούν να δημιουργήσουν σημαντικά εμπόδια.
Κοινή Γνώμη
Σε σχόλιο τους σχετικά με την προτεινόμενη εξαίρεση του Ηνωμένου Βασιλείου για την εξόρυξη πληροφορίας, το iCommons και το Open Knoledge Foundation (OKFN ‐ Ίδρυμα Ανοικτής Γνώσης) υποστήριξαν την άποψη της βρετανικής κυβέρνησης ότι είναι λάθος «ορισμένες δραστηριότητες κοινωφελούς χαρακτήρα, όπως οι ιατρικές έρευνες, που λαμβάνονται δια της εξόρυξης κειμένου να υπόκεινται στη δυνατότηα άσκησης βέτο από τους ιδιοκτήτες των πνευματικών δικαιωμάτων στις εκθέσεις των εν λόγω ερευνών, όταν η πρόσβαση στις εκθέσεις αποκτήθηκε νόμιμα». Η PLOS (Public Library of Science ‐ Δημόσια Βιβλιοθήκη της Επιστήμης) απεφάνθει ότι, «η δυνατότητα της εξόρυξης περιεχομένου είναι βασικό κομμάτι της προσφοράς αξίας για υπηρεσίες δημοσίευσης Ανοικτής Πρόσβασης». Σε απάντηση του στην αναθεώρηση της πολιτικής πνευματικής ιδιοκτησίας στην Ευρώπη, ο LIBER (Ligue des Bibliothèques Européennes de Recherche ‐ Σύνδεσμος ευρωπαϊκών ερευνητικών βιβλιοθηκών) αναφέρει, «όλες οι εξαιρέσεις που σχετίζονται με την εκπαίδευση, τη μάθηση και την πρόσβαση στη γνώση πρέπει να γίνουν υποχρεωτικές. Συγκεκριμένα, θα θέλαμε να δούμε μια ειδική εξαίρεση για την εξόρυξη κειμένου και δεδομένων για όλους τους ερευνητικούς σκοπούς». Η Ομάδα Εργασίας του OKFN για την Ανοικτή Πρόσβαση δήλωσε:
«Διακηρύσσουμε ότι δεν υπάρχει νομικός ή ηθικός λόγος για να μην επιτρέπεται η νόμιμη πρόσβαση στο περιεχόμενο ερευνών (με Ανοικτή Πρόσβαση ή με άλλο τρόπο) μέσω μηχανών με σκοπό την ανάλυση των δημοσιευμένων αποτελεσμάτων της ερευνητικής κοινότητας. Οι ερευνητές, αναμένεται να έχουν πρόσβαση και να μπορούν να επεξεργάζονται το πλήρες περιεχόμενο της ερευνητικής βιβλιογραφίας με τα προγράμματα των υπολογιστών τους και θα πρέπει να είναι σε θέση να χρησιμοποιούν τις μηχανές τους, όπως χρησιμοποιούν και τα μάτια τους.»
Η υποστήριξη της εξόρυξης κειμένου και δεδομένων, υπό το πρόσχημα «το δικαίωμα στην ανάγνωση είναι το δικαίωμα στη εξόρυξη» έχει εκδηλωθεί από άλλες οργανώσεις, μεταξύ των οποίων η Copyright for Creativity (Copyright για τη Δημιουργικότητα) (Ιούλιος 2013) και η Διεθνής Ομοσπονδία Ενώσεων Βιβλιοθηκών και Οργανισμών (International Federation of Library Associations and Organizations) (Δεκέμβριος 2013). Αν εμείς, ως κοινωνία, επιθυμούμε να αξιοποιήσουμε τις απίστευτες δυνατότητες της εξόρυξης κειμένου και δεδομένων, η πρακτική αυτή δεν θα πρέπει να ελέγχεται μέσω όρων συμβάσεων ή αδειοδοτήσεις.
Αντί να εξαρτάται από περιορισμούς συμβάσεων ή αδειοδoτήσεις για τη συμμετοχή στην εξόρυξη κειμένου και δεδομένων, η μη καταναλωτική χρήση των κειμένων πρέπει να εξαιρεθεί ρητά από τους περιορισμούς του copyright και των συμβολαίων. Η έκθεση του καθηγητή Hargreaves για το Ηνωμένο Βασίλειο (PDF, σελ. 47) πρoτείνει την υιοθέτηση εξαίρεσης από τη νομοθεσία πνευματικής ιδιοκτησίας για μη καταναλωτικές χρήσεις, οι οποίες είναι «χρήσεις ενός έργου που καθίστανται ικανές μέσω της τεχνολογίας, η οποία δεν υπονομεύει τον υποκειμενικό δημιουργικό και εκφραστικό σκοπό του έργου.»
Πρόσφατα, η μεταρρύθμιση για τη νομοθεσία των πνευματικών δικαιωμάτων στο Ηνωμένο Βασίλειο εισήγαγε αλλαγές που διευκολύνουν τη συμμετοχή στη TDM για μη εμπορικούς σκοπούς, επιτρέπουν την αποθήκευση βιβλιογραφίας τοπικά εφόσον παραμένει προστατευμένη από τη γενική πρόσβαση του κοινού και, πιθανότατα το σημαντικότερο, απαγορεύει τις διαπραγματεύσεις συμβολαίων που θα δυσχέραιναν τη διεξαγωγή TDM.
Οι ανωτέρω απόψεις είναι αξιέπαινες και οι φιλικές προς τη TDM μεταρρυθμίσεις των πνευματικών δικαιωμάτων είναι πολύ σημαντικές, και υποστηρίζουμε τέτοιες προσπάθειες. Ωστόσο, πιστεύουμε ότι όσο περισσότερο ενημερωμένοι σχετικά με την τεχνολογία και τα συναφή θέματα είναι οι δυνητικοί χρήστες της TDM, τόσο καλύτερα θα μπορέσουν να διαπραγματευθούν τους όρους που θα κάνουν την έρευνα τους πιο εύκολη και αποτελεσματική. Ως εκ τούτου, θέλουμε να προχωρήσουμε ένα βήμα μπροστά με την εκπαίδευση και την οικοδόμηση της ευαισθητοποίησης ως μια προσπάθεια από τη βάση.
Χτίζοντας την Υποστήριξη από τη Βάση
Εργαζόμαστε με την ομάδα ContentMine αναπτύσοντας μια ατζέντα για ένα εργαστήριο που θα παρέχει εξοικείωση με τη TDM και θα εκπαιδεύει τους συμμετέχοντες σχετικά με τους νομικούς παράγοντες μέσω πρακτικών ασκήσεων. Εμείς θα παρουσιάσουμε το θέμα, τα εργαλεία και τις τεχνικές, θα αντιμετωπίσουμε ένα συγκεκριμένο πρόβλημα και στη συνέχεια θα το χρησιμοποιήσουμε για να εκθέσουμε τους ερευνητές στις νομικές επιπλοκές που μπορεί να συναντήσουν κατά τη διεξαγωγή της έρευνας τους και τα νομικά ζητήματα που θα πρέπει να έχουν υπόψη τους όταν επιλέγουν μια άδεια χρήσης για τα έργα τους. Έχουμε τρεις στόχους για αυτή τη σειρά των εργαστηρίων:
- Να παρουσιάσουμε στους συμμετέχοντες τα βασικά εργαλεία και τεχνικές της εξόρυξης κειμένου και δεδομένων (TDM).
- Να ενημερώσουμε τους συμμετέχοντες για τις νομικές επιπλοκές της TDM και τις συνέπειες της επιλογής των κατάλληλων αδειών χρήσης που θα επιτρέπουν και στους μεταγενέστερους χρήστες να συμμετέχουν στην εξόρυξη κειμένου και δεδομένων.
- Να γαλουχήσουμε μία κοινότητα πρακτικής τα μέλη της οποίας θα μπορούν να αλληλοβοηθούνται.
Για να είμαστε σαφής, δε σκοπεύουμε το εργαστήριο να είναι μια λεπτομερής και ολοκληρωμένη εκπαίδευση πάνω στη TDM, και σίγουρα δεν θα υποκαθιστά την εμπειρία σε αυτή τη βαθιά και ολοκληρωμένη τεχνική. Αντίθετα, το εργαστήριο έχει σχεδιαστεί για να είναι τόσο μια εισαγωγή σε βασικές τεχνικές και νομικές έννοιες, καθώς και μία ευκαιρία για δικτύωση με τους ειδικούς του χώρου, αλλά και με αρχάριους με ενδιαφέρον για τον τομέα αυτό. Ευελπιστούμε ότι οι συμμετέχοντες που προτίθενται να χρησιμοποιήσουν τη TDM για το έργο τους θα ενημερωθούν καλύτερα μέσα από τη συνεργασία με ειδικούς στην εξόρυξη κειμένου και δεδομένων.
Η πρώτη φάση του εργαστηρίου θα λάβει χώρα στο 2014 Open Knowledge Festival. Ελπίζουμε να το διαδεχθεί άλλο ένα εργαστήριο στο Ναϊρόμπι τον Αύγουστο 2014 στο Διεθνές Εργαστήριο για τα Ανοικτά Δεδομένα στην Επιστήμη και την Αειφορία στις Αναπτυσσόμενες Χώρες (OpenDataSSDC), που διοργανώνει η ομάδα εργασίας για τη Διατήρηση και την Πρόσβαση σε Επιστημονικά και Τεχνικά Δεδομένα στις αναπτυσσόμενες χώρες (CODATA PASTD), και πιθανότατα άλλο ένα στο SciDataCon στο Νέο Δελχί τον Νοέμβριο 2014. Ευελπιστούμε να κάνουμε αυτά τα εργαστήρια σε τακτική βάση, δημιουργώντας έτσι μία βάση με ενδιαφέρουσες ασκήσεις και προβλήματα προς λύση, βελτιώνοντας συνεχώς το περιεχόμενο μέσα από την αλληλεπίδραση με το κοινό και τη διαρκή έρευνα.
Σε συνεργασία με ειδικούς στους τομείς της πληροφορικής, των νομικών και της βιβλιοθηκονομίας θα προσαρμόζουμε το πρόγραμμα του εργαστηρίου ώστε να συσχετίζεται περισσότερο με το εκάστοτε ίδρυμα που θα το φιλοξενεί. Ο στόχος μας είναι να προσεγγίσουμε κοινότητες ερευνητών σε χώρες με μικρή συμμετοχή στην παγκόσμια συζήτηση για την ανοικτή επιστήμη και τα ανοικτά δεδομένα. Έχουμε αναγνωρίσει ερευνητές και συνεχώς αναζητούμε περισσότερους τόσο στον τεχνικό όσο και στο νομικό τομέα, με τους οποίους σκοπεύουμε να κτίσουμε ένα δίκτυο. Εάν ασχολείστε ή σκοπεύετε να ασχοληθείτε με την εξόρυξη κειμένου και δεδομένων, και διαθέτετε τη γνώση και εμπειρία πάνω στην τεχνολογία ή στα σχετικά νομικά θέματα, παρακαλούμε επικοινώνηστε μαζί μας.
Επίσης, σκοπεύουμε να αναπτύξουμε μία κοινότητα πρακτικής για τη TDM, είτε αυτόνομα είτε μέσα από υπάρχουσες πλατφόρμες, όπως το StackExchange, και να χρησιμοποιήσουμε on-line εργαλεία όπως forums, λίστες ταχυδρομείου, καθώς και έναν κατάλογο από ειδικούς σε τεχνικά, νομικά και θεσμικά ζητήματα για την παροχή βοήθειας για την εξόρυξη κειμένου και δεδομένων.
* Απόδοση στα ελληνικά του άρθρου “Liberating the Haystack for the Needles” του Puneet Kishor που δημοσιεύθηκε αρχικά στο creativecommons.org στις 2 Ιουνίου 2014.
Στη συγγραφή του αρχικού άρθρου συνετέλεσαν το νομικό τμήμα και οι ομάδες πολιτικής των CC με την ανεκτίμητη βοήθεια τους.