ΠΛΕ070: Ανάκτηση Πληροφορίας: Εργασία
Θα σχεδιάστε και υλοποιείστε μια μηχανή αναζήτησης για μια συλλογή εγγράφων.
Η μηχανή (σύστημα ανάκτησης πληροφορίας) θα πρέπει να υποστηρίζει:
- Προεπεξεργασία των εγγράφων
- Κατασκευή ευρετηρίων
- Aναζήτηση με λέξη κλειδιά
- (προαιρετικά) Κάποια οπτικοποίηση των αποτελεσμάτων
Κάθε ομάδα θα πρέπει να διαλέξει ένα από τα παρακάτω θέματα:
- Αναγνώριση αισθήματος (Sentiment analysis): Κάθε έγγραφο θα χαρακτηρίζεται με κάποιο βαθμό ως θετικό ή αρνητικό. Αυτή η πληροφορία θα πρέπει να χρησιμοποιείται με κάποιον τρόπο, για παράδειγμα, να ανακτούνται όλα τα θετικά για κάποιον όρο κείμενα. Το πώς ακριβώς θα εμπλουτίσετε το σύστημά σας με αυτήν την πληροφορία είναι μέρος της εργασίας.
- Υποστήριξη χωρικής πληροφορίας: Θα εξετάσουμε έγγραφα που έχουν πληροφορία για το χώρο, για παράδειγμα έγγραφα (tips) του Foursquare που αφορούν μέρη με συγκεκριμένη γεωγραφική θέση. Αυτή η πληροφορία θα πρέπει να χρησιμοποιείται με κάποιον τρόπο, για παράδειγμα, να ανακτούνται όλα τα σχετικά με κάποιον όρο μέρη γύρω από μια συγκεκριμένη γεωγραφική θέση. Το πώς ακριβώς θα εμπλουτίσετε το σύστημά σας με αυτήν την πληροφορία είναι μέρος της εργασίας.
- Υποστήριξη χρονικής πληροφορίας: Θα εξετάσουμε έγγραφα που έχουν πληροφορία για το χρόνο, για παράδειγμα tweets που έχουν την ημερομηνία αποστολής. Αυτή η πληροφορία θα πρέπει να χρησιμοποιείται με κάποιον τρόπο, για παράδειγμα, να ανακτούνται μόνο τα πιο πρόσφατα με κάποιον όρο tweets. Το πώς ακριβώς θα εμπλουτίσετε το σύστημά σας με αυτήν την πληροφορία είναι μέρος της εργασίας.
Για την υλοποίηση θα χρησιμοποιήσετε τη Lucene.
Υπάρχουν πολλές συλλογές από έγγραφα διαθέσιμες.
Για παράδειγμα μπορείτε να χρησιμοποιήστε τις παρακάτω συλλογές:
- Δεδομένα από το Twitter
Περιλαμβάνονται 600635 tweets σχετικά με πραγματικά γεγονότα.
Τα στοιχεία είναι:
1. name of the user
2. screen name of the user
3. id of the user
4. creation timestamp
5. tweet text
- Δεδομένα από το Foursquare
Περιλαμβάνονται αρχεία με tips (μικρά κείμενα) από το foursquare για
users και venues (μέρη) της Νέας Υόρκης και του Σαν Φρανσίσκο.
Κάθε γραμμή των αρχείων με venue tips είναι της μορφής: venue_id tip_id tip_text
Κάθε γραμμή των αρχείων user tips είναι της μορφής: user_id tip_id tip_text
Οι τιμές χωρίζονται με tab.
- Μπορείτε να χρησιμοποιείστε δεδομένα από το Yelp dataset challenge
.
Τα δεδομένα αφορούν κριτικές (κυρίως) εστιατορίων και δίνονται ως μέρος ενός διαγωνισμού από τη Yelp.
- Μπορείτε να χρησιμοποιείστε άρθρα της wikipedia.
Πληροφορίες για το πως θα τα ανακτήσετε υπάρχουν π.χ., εδώ, όπου
εδώ υπάρχουν οδηγίες για το πως μπορείτε
να ανακτήσετε συγκεκριμένα άρθρα και παλιότερες εκδόσεις αυτών.
- Άλλες συλλογές, όπως
- The 20 Newsgroup dataset
- Συλλογές από το Glasgow repository
που περιέχει ανάμεσα σε άλλα: 423 Time Magazine Articles (from 1963), Cranfield Collection (1,400 Abstracts),
Medlars Collection (1033 Abstracts), Reuters-21578 test collection, ADI, CACM, CISI
- The 4 universities dataset