ΠΛΕ059 – Εξόρυξη Δεδομένων

Χειμερινό Εξάμηνο, 2012

 

Αρχική

Υλικό

Διαφάνειες

Ασκήσεις

Γενικές Πληροφορίες

Ώρες Διδασκαλίας: Τρίτη 13:00-16:00, Αίθουσα Ι3.
Διδάσκων: Παναγιώτης Τσαπάρας (tsap _at_ cs.uoi.gr), Γραφείο Β.3

Βαθμολογία: Ο βαθμός του μαθήματος προκύπτει από τις ασκήσεις οι οποίες είναι απαλλακτικές.


Ανακοινώσεις

·         Πέμπτη 7 Μαρτίου. Τελικοί Βαθμοί. Μπορείτε να δείτε τον τελικό σας βαθμό εδώ. Αν έχετε κάποια απορία στείλτε μου email μέσα στις επόμενες μία ή δύο μέρες γιατί θα στείλω τους βαθμούς στη Γραμματεία.

·         Παρασκευή 15 Φεβρουαρίου. Πέμπτη Σειρά Ασκήσεων. Μπορείτε να παραδώσετε την Πέμπτη Σειρά μέχρι το τέλος της μέρας σήμερα.

·         Τετάρτη 13 Φεβρουαρίου. Βαθμοί Τέταρτης Σειράς. Μπορείτε να δείτε τους βαθμούς της τέταρτης άσκησης (μαζί με τις προηγούμενες) εδώ.

·         Τρίτη 12 Φεβρουαρίου. PageRank στο MATLAB. Όσοι υλοποιήσετε το PageRank στο MATLAB, χρησιμοποιήσετε τον αποτελεσματικό αλγόριθμο που δώσαμε στις διαφάνειες του μαθήματος.

·         Τρίτη 5 Φεβρουαρίου. Προθεσμία Πέμπτης Άσκησης. Για να διευκολύνουμε αυτούς που δίνουν Γραφικά η προθεσμία της Πέμπτης Άσκησης μετακινείται για τις 15 Φεβρουαρίου 6μμ.

·         Τρίτη 5 Φεβρουαρίου. Βαθμοί Τρίτης Σειράς. Μπορείτε να δείτε τους βαθμούς της τρίτης άσκησης (μαζί με τις προηγούμενες) εδώ.

·         Τρίτη 29 Ιανουαρίου. Βαθμοί Δεύτερης Σειράς. Μπορείτε να δείτε τους βαθμούς της δεύτερης άσκησης (μαζί με της πρώτης) εδώ.

·         Κυριακή 27 Ιανουαρίου. Προγραμματιστικές ασκήσεις. Στις προγραμματιστικές ασκήσεις είναι απαραίτητο να παραδίδετε και την γραπτή αναφορά για τα αποτελέσματα του κώδικα σας για να πάρετε όλο το βαθμό. Επίσης, δώστε πληροφορίες για το πώς τρέχει ο κώδικας σας, και βάλετε κάποια σχόλια στον κώδικα σας.

·         Τρίτη 22 Ιανουαρίου. Πέμπτη Άσκηση. Μαζί με τον κώδικα σας για την Πέμπτη Άσκηση, παραδώστε και οδηγίες για το πώς τρέχει το πρόγραμμα σας.

·         Τετάρτη 16 Ιανουαρίου. Προθεσμία Πέμπτης Άσκησης. Η νέα προθεσμία για την Πέμπτη Άσκηση είναι στις 11 Φεβρουαρίου. Η άσκηση έχει ελαφρώς τροποποιηθεί, οπότε κατεβάστε την ξανά από τη σελίδα του μαθήματος.

·         Τρίτη 15 Ιανουαρίου. Βαθμοί πρώτης άσκησης. Μπορείτε να δείτε τους βαθμούς της πρώτης άσκησης εδώ.

·         Τρίτη 15 Ιανουαρίου. Πέμπτη Άσκηση: Η πέμπτη σειρά ασκήσεων είναι διαθέσιμη στη σελίδα ασκήσεων του μαθήματος.

·         Δευτέρα 14 Ιανουαρίου. Μάθημα 15ης Ιανουαρίου. Μια υπενθύμιση ότι αυτή την Τρίτη το μάθημα θα ξεκινήσει στις 1:00 αντί για 1:30.

·         Δευτέρα 7 Ιανουαρίου. Αξιολόγηση. Μια υπενθύμιση ότι αυτή την Τρίτη θα έχουμε την αξιολόγηση στο τέλος του μαθήματος.

·         Τρίτη 25 Δεκεμβρίου. Παράταση 4ης Άσκησης. Η προθεσμία για την τέταρτη άσκηση παρατείνεται για τις 29 Δεκεμβρίου. Η παράδοση πρέπει να γίνει μέχρι το τέλος της ημέρας.

·         Τρίτη 18 Δεκεμβρίου. Αναβολή μαθήματος. Το σημερινό μάθημα αναβάλλεται λόγω προσωπικού προβλήματος του διδάσκοντος. Θα γίνει αναπλήρωση του μαθήματος μετά τις διακοπές των Χριστουγέννων. Η αξιολόγηση θα γίνει στο μάθημα της 8ης Ιανουαρίου.

·         Πέμπτη 13 Δεκεμβρίου. Αξιολόγηση: Στο τέλος του μαθήματος της Τρίτης, 18 Δεκεμβρίου θα κάνουμε την αξιολόγηση του μαθήματος.

·         Πέμπτη 13 Δεκεμβρίου. Τέταρτη Άσκηση: Η τέταρτη σειρά ασκήσεων είναι διαθέσιμη στη σελίδα ασκήσεων του μαθήματος.

·         Τετάρτη 5 Δεκεμβρίου. Επιπλέον μάθημα, Παράταση για την Άσκηση 3: Αυτή την Παρασκευή, 7 Δεκεμβρίου θα έχει μια επιπλέον διάλεξη 10-12 αμ. Η Άσκηση 3 παίρνει παράταση για την Τρίτη 11 Δεκεμβρίου, στην αρχή του μαθήματος.

·         Κυριακή 2 Δεκεμβρίου. Τρίτη Άσκηση, Ερώτηση 2: Δύο διορθώσεις για την Ερώτηση 2. Η άσκηση στο βιβλίο είναι η 8.27 και όχι η 9.27. Στην εξίσωση υπάρχει και ένα δύο στον παρανομαστή του τελεστή αναλογίας. Η διορθωμένη εκφώνηση έχει αναρτηθεί στη σελίδα των ασκήσεων.

·         Κυριακή 2 Δεκεμβρίου. Τρίτη Άσκηση, Ερώτηση 4: Για τις τιμές precision και recall του k-means αναφέρετε τη μέση τιμή για πέντε διαφορετικά τρεξίματα. Επίσης εκτός από τις τιμές αναφέρετε και εμπειρικές παρατηρήσεις για το είδος των χρηστών που ομαδοποιούνται σε κάθε cluster.

·         Σάββατο 24 Νοεμβρίου. Τρίτη Άσκηση: Η τρίτη σειρά ασκήσεων είναι διαθέσιμη στη σελίδα ασκήσεων του μαθήματος.

·         Τρίτη 20 Νοεμβρίου. Αναπλήρωση μαθήματος, Άσκηση 2: Αυτή την Παρασκευή θα έχουμε μάθημα στις 12:00 για μία ή δύο ώρες. Για την Άσκηση 2 μπορείτε όσοι δεν την έχετε παραδώσει να την παραδώσετε μέχρι σήμερα τα μεσάνυχτα χωρίς ποινή.

·         Κυριακή 18 Νοεμβρίου. Άσκηση 2, Ερώτηση 2: Για τις συναρτήσεις κατακερματισμού που σας δίνει το βιβλίο πρέπει να πάρετε την τιμή της συνάρτησης mod 5 ως την τιμή της συνάρτησης.

·         Τετάρτη 14 Νοεμβρίου. Νέα ώρα μαθήματος: Από εδώ και στο εξής το μάθημα θα γίνεται 13:30 – 16:00. Για αναπλήρωση του υλικού θα κάνουμε μερικές φορές μάθημα και την Παρασκευή.

·         Δευτέρα 12 Νοεμβρίου. Ώρα μαθήματος: Η ώρα του μαθήματος παραμένει κανονικά 13:00-16:00. Υπάρχει ένα λάθος στο πρόγραμμα που αναρτήθηκε στη σελίδα του τμήματος.

·         Παρασκευή 9 Νοεμβρίου. Δεύτερη Άσκηση: Η δεύτερη σειρά ασκήσεων είναι διαθέσιμη στη σελίδα ασκήσεων του μαθήματος.

·         Παρασκευή 9 Νοεμβρίου. Πολιτική free pass για παράδοση ασκήσεων. Για τις προθεσμίες των ασκήσεων έχετε 3 “free passes”. Δηλαδή έχετε τρείς μέρες τις οποίες μπορείτε να χρησιμοποιήσετε όποτε θέλετε για να παρατείνετε την προθεσμία παράδοσης. Λεπτομέρειες στην σελίδα των ασκήσεων.

·         Πέμπτη 8 Νοεμβρίου. Παράδοση Άσκησης 1, Μέρος Β: Μπορείτε να κάνετε turn-in την Άσκηση μέχρι το τέλος της Παρασκευής χωρίς ποινή.

·         Πέμπτη 8 Νοεμβρίου. Διευκρινήσεις για την Άσκηση 1, Μέρος Β: Αν και το πιο συχνό είδος εισόδου είναι με ακέραιους, κάποιες από τις υλοποιήσεις στο FIMI μπορεί να δέχονται και strings ως items (ενας συμφοιτητής σας ανέφερε το ECLAT). Στην περίπτωση αυτή δεν χρειάζεται φυσικά να κάνετε τη μετατροπή σε ακεραίους.

·         Πέμπτη 8 Νοεμβρίου. Διευκρινήσεις για την Άσκηση 1, Μέρος Β:

o   Για την ερώτηση 3, αν θέλετε να χρησιμοποιήσετε το WEKA θα πρέπει κάθε λέξη να μετατραπεί σε ένα attribute, το οποίο θα παίρνει τιμή true/false ανάλογα με το αν εμφανίζεται η λέξη ή όχι. Ο αριθμός των attributes είναι πολύ μεγάλος για να χωρέσει στη μνήμη οπότε θα πρέπει να χρησιμοποιήσετε το sparse arff format. (Για παράδειγμα κοιτάξτε το ακόλουθο posting: http://old.nabble.com/convert-market-basket-data-to-binary-form-for-fp-growth-td30651604.html -- υπάρχει κι αλλη πληροφορία online). Μια άλλη λύση είναι να πετάξετε έξω τις λέξεις που δεν είναι αρκετά συχνές, οπότε θα μείνετε με λιγότερες λέξεις, αλλά πάλι μπορεί να είναι πολλές.  Εναλλακτικά μπορείτε να χρησιμοποιήσετε κάποια από τις υλοποιήσεις του FIMI (π.χ., η υλοποίηση LCM είναι αρκετά εύκολο να χρησιμοποιηθεί). Στο αρχείο εισόδου κάθε γραμμή είναι ένα «καλάθι» και τα αντικείμενα είναι ακέραιοι (χωρισμένα με κενό) οπότε θα πρέπει να δώσετε σε κάθε λέξη ένα αύξοντα αριθμό.

o   Για την ερώτηση 2, ο σωστός τρόπος για να δημιουργήσετε και να μετρήσετε τις υπο-ακολουθίες είναι να βρείτε ποιες υπο-ακολουθίες ξεκινάνε από το αριστερό άκρο του παραθύρου. Ένας διαφορετικός τρόπος μέτρησης της συχνότητας είναι ο αριθμός των παραθύρων που περιέχουν μια υπο-ακολουθία. Αν και είναι λίγο διαφορετικός από αυτό που ζητάει η άσκηση θα γίνει δεκτός.

·         Τετάρτη 7 Νοεμβρίου. Ώρα μαθήματος Παρασκευή 9 Νοεμβρίου: Για να αποφύγουμε επικάλυψη με το μάθημα των Λειτουργικών, το μάθημα θα γίνει στις 11:00-14:00.

·         Πέμπτη 1 Νοεμβρίου. Διευκρινήσεις για την Άσκηση 1, Μέρος Β:

o   Για την ερώτηση 2, σε μια υπο-ακολουθία τα αντικείμενα διατηρούν την διάταξη που έχουν στην συνολική ακολουθία. Για παράδειγμα, η ακολουθία BBAC περιέχει την υπο-ακολουθία BAC, αλλά όχι την υπο-ακολουθία ABC.

o   Για την ερώτηση 3, από το αρχείο με τα Twitter profiles μας ενδιαφέρει μόνο το 11ο (ενδέκατο) πεδίο, που έχει το description του χρήστη. Από αυτό το πεδίο θα εξάγετε τα συχνά στοιχειοσύνολα (σύνολα από λέξεις). Αν θέλετε να κοιτάξετε (και) άλλα πεδία μπορείτε να το προτείνετε ως μέρος της επιλογής 3.

o   Για την ερώτηση 3, έχετε αρκετή ελευθερία για την προ-επεξεργασία των δεδομένων. Στην αναφορά που θα κάνετε αναφέρετε τις επιλογές που κάνατε.

·         Πέμπτη 1 Νοεμβρίου. Αναβολή μαθήματος – Παράταση Άσκησης 1, Μέρος Β: Το μάθημα της επόμενης εβδομάδας (6 Νοεμβρίου) αναβάλλεται για την Παρασκευή 9 Νοεμβρίου, 9:00 – 11:00 π.μ. Η παράδοση του δεύτερου μέρους της πρώτης άσκησης παίρνει παράταση για την αρχή του μαθήματος στις 9 Νοεμβρίου.

·         Δευτέρα 29 Οκτωβρίου. Πρώτη Άσκηση – Δεύτερο μέρος – Ερώτηση 2 – Διόρθωση: Στο δεύτερο ερώτημα, όταν μία υπο-ακολουθία εμφανίζεται παραπάνω από μία φορές μέσα σε ένα παράθυρο μεγέθους W θα πρέπει να προσμετρείται μόνο μία φορά. Π.χ. στην ακολουθία ΑΑΒC, για W = 4, την υπο-ακολουθία ΑΒ, την μετράμε μόνο μία φορά, και όχι δυο όπως (αρχικά) έλεγε στην άσκηση. Αν είχαμε την ακολουθία  ΑΑΒCB, για W = 4, τότε την υπο-ακολουθία ΑΒ, την μετράμε δύο φορές, μία φορά στο παράθυρο ΑΑΒC, και μία στο παράθυρο ABCB, λόγω της εμφάνισης του νέου Β. Η διόρθωση είναι απαραίτητη για να ισχύει η ιδιότητα της αντι-μονοτονίας. Για bonus βαθμό, δώστε ένα αντιπαράδειγμα στο οποίο παραβιάζεται η αρχή της αντι-μονοτονίας με τον προηγούμενο ορισμό.

·         Παρασκευή 26 Οκτωβρίου. Πρώτη Άσκηση – Δεύτερο μέρος: Βγήκε το δεύτερο μέρος της πρώτης άσκησης στη σελίδα ασκήσεων του μαθήματος.

·         Πέμπτη 25 Οκτωβρίου. Turn-in: Για να κάνετε turn-in το πρώτο μέρος της πρώτης σειράς ασκήσεων, χρησιμοποιείστε την εντολή: turnin assignment1a@ple059 <τα αρχεία σας>. Αναφέρετε το όνομα και το ΑΜ σας στα αρχεία σας.

·         Παρασκευή 19 Οκτωβρίου. Πρώτη Άσκηση – Πρώτο μέρος: Βγήκε το πρώτο μέρος της πρώτης άσκησης στη σελίδα ασκήσεων του μαθήματος.

·         Παρασκευή 5 Οκτωβρίου. Νέα ώρα διδασκαλίας: Η ώρα του μαθήματος μεταφέρεται την Τρίτη 13:00-16:00