ΠΛΕ070: Ανάκτηση Πληροφορίας: Εργασία

Περιγραφή Εργασίας

Θα σχεδιάστε και υλοποιείστε μια μηχανή αναζήτησης για μια συλλογή εγγράφων. Η μηχανή (σύστημα ανάκτησης πληροφορίας) θα πρέπει να υποστηρίζει:
  1. Προεπεξεργασία των εγγράφων
  2. Κατασκευή ευρετηρίων
  3. Aναζήτηση με λέξη κλειδιά
  4. (προαιρετικά) Κάποια οπτικοποίηση των αποτελεσμάτων
Κάθε ομάδα θα πρέπει να διαλέξει ένα από τα παρακάτω θέματα:
  1. Αναγνώριση αισθήματος (Sentiment analysis): Κάθε έγγραφο θα χαρακτηρίζεται με κάποιο βαθμό ως θετικό ή αρνητικό. Αυτή η πληροφορία θα πρέπει να χρησιμοποιείται με κάποιον τρόπο, για παράδειγμα, να ανακτούνται όλα τα θετικά για κάποιον όρο κείμενα. Το πώς ακριβώς θα εμπλουτίσετε το σύστημά σας με αυτήν την πληροφορία είναι μέρος της εργασίας.

  2. Υποστήριξη χωρικής πληροφορίας: Θα εξετάσουμε έγγραφα που έχουν πληροφορία για το χώρο, για παράδειγμα έγγραφα (tips) του Foursquare που αφορούν μέρη με συγκεκριμένη γεωγραφική θέση. Αυτή η πληροφορία θα πρέπει να χρησιμοποιείται με κάποιον τρόπο, για παράδειγμα, να ανακτούνται όλα τα σχετικά με κάποιον όρο μέρη γύρω από μια συγκεκριμένη γεωγραφική θέση. Το πώς ακριβώς θα εμπλουτίσετε το σύστημά σας με αυτήν την πληροφορία είναι μέρος της εργασίας.

  3. Υποστήριξη χρονικής πληροφορίας: Θα εξετάσουμε έγγραφα που έχουν πληροφορία για το χρόνο, για παράδειγμα tweets που έχουν την ημερομηνία αποστολής. Αυτή η πληροφορία θα πρέπει να χρησιμοποιείται με κάποιον τρόπο, για παράδειγμα, να ανακτούνται μόνο τα πιο πρόσφατα με κάποιον όρο tweets. Το πώς ακριβώς θα εμπλουτίσετε το σύστημά σας με αυτήν την πληροφορία είναι μέρος της εργασίας.

Για την υλοποίηση θα χρησιμοποιήσετε τη Lucene.

Συλλογές Δεδομένων

Υπάρχουν πολλές συλλογές από έγγραφα διαθέσιμες. Για παράδειγμα μπορείτε να χρησιμοποιήστε τις παρακάτω συλλογές: