ΠΛΕ070: Ανάκτηση Πληροφορίας - Αρχική Περιγραφή

Ημερομηνία Παράδοσης: 22/4/2015, έως 5μμ
με email ως pdf αρχείο στο pitoura <παπάκι> cs.uoi.gr

Η αναφορά σας θα πρέπει να είναι από 600-1000 λέξεις.

Περιγράψτε τον αρχικό σχεδιασμό του συστήματος σας συμπεριλαμβανομένων:

  1. της προ-επεξεργασίας των εγγράφων (π.χ., ποια θα είναι η μονάδα εγγράφου, η διαίρεση σε σύμβολα (tokenization), η κανονικοποίηση, η περιστολή (stemming), η χρήση ή όχι διακοπτόμενων λέξεων (stop words), κλπ,
  2. κατασκευής και του περιεχόμενο του ευρετηρίου (π.χ., αν αυτό θα περιέχει πληροφορία θέσης) και
  3. του είδους των ερωτημάτων που θα υποστηρίζονται.
Αναφέρετε ποια συλλογή εγγράφων σκοπεύετε να χρησιμοποιήστε και δώστε μια σύντομη περιγραφή της.

Εξηγείστε επίσης με ποιόν τρόπο το σύστημα σας θα υποστηρίζει αναγνώριση αισθήματος, χωρική ή χρονική πληροφορία. Περιγράψτε τόσο πως θα εμπλουτίσετε σχετικά το ευρετήριο όσο και πως η παραπάνω πληροφορία θα επηρεάσει τη διαβάθμιση (ranking) των εγγράφων της απάντησης ενός ερωτήματος.