Διδάσκουσα: Ευαγγελία Πιτουρά
Ώρες Διδασκαλίας: Τετάρτη: 13:15:-16:00
Δείτε τη σελίδα για το μάθημα προηγούμενου έτους εδώ.
Ανακοινώσεις
-
(6/7/2011) Τελική Βαθμολογία Εξεταστικής Ιουνίου εδώ
Για οποιεσδήποτε ερωτήσεις, επικοινωνήστε άμεσα μαζί μου.
Επίσης, αν θέλετε μπορείτε να περάσετε από το γραφείο μου να πάρετε τις ασκήσεις σας.
-
(6/7/2011) Αναλυτική Βαθμολογία Ασκήσεων
εδώ
- (27/5/2011) Εκφώνηση 3ου Συνόλου Ασκήσεων
- (16/5/2011) Έκτατο μάθημα Παρασκευή 20/5 13:00μμ
- (16/5/2011) Παράταση στην παράδοση του 2ου Συνόλου για την Παρασκευή 20/5
στις 13:00μμ
- (8/5/2011) Λόγω της αναστολής της λειτουργίας του Πανεπιστημίου που αποφάσισε η Σύγκλητος, το μάθημα της Τετάρτης (11/5) αναβάλλεται,
και θα γίνει έκτατο μάθημα την Πέμπτη 18:00 - 19:00.
- (28/4/2011)
Ανακοινώθηκε το 2ο Σύνολο Ασκήσεων. Ημερομηνία Παράδοσης: 18/5/2011.
- (2/4/2011) Η εξέταση του 1ου Συνόλου Ασκήσεων θα γίνει στο μάθημα
της Τετάρτης (13/4) ή/και την Πέμπτη (14/4).
- (15/3/2011) Το μάθημα την επόμενη Τετάρτη θα γίνει
στις 10:00πμ - 11:30πμ.
- (8/3/2011) Στο αυριανό μάθημα θα γίνει μια εισαγωγή στο WEKA
και στις συναρτήσεις για συσταδοποίηση που παρέχει το MATLAB.
Η πρώτη άσκηση θα ανακοινωθεί το Σάββατο 12/3 με καταληκτική
ημερομηνία την Τετάρτη 13/4.
- (8/2/2011) Η πρώτη διάλεξη θα γίνει την Τετάρτη 16 Φεβρουαρίου
Διδακτικά Βιβλία
Έχει μεταφραστεί το διδακτικό βιβλίο των:
P.-N. Tan, M. Steinbach and V. Kumar,
Introduction to Data Mining Addison Wesley, 2006
Β. Βερύκιος και Σ. Σουραβλάς, Εκδόσεις Τζιόλα (2010).
Επίσης, δύο άλλα σχετικά βιβλία στα Ελληνικά:
Μ. Βαζιργιάννης και Μ. Χαλκίδη, Εξόρυξη Γνώσης από Βάσεις Δεδομένων.
Τυποθήτω, Νοέμβριος 2003
M. H. Dunham, Data Mining, Εισαγωγικά και Προηγμένα Θέματα Εξόρυξης Γνώσης
από Δεδομένα. Επιμέλεια Ελληνικής Έκδοσης: Β. Βερύκιος και
Γ. Θεοδωρίδης. Εκδόσεις Νέων Τεχνολογιών, 2004.
Κλασικά διδακτικά βιβλία είναι τα:
Ένα καινούργιο βιβλίο που καλύπτει και
νέα ενδιαφέροντα θέματα (MapReduce, recommendation systems, advertising
on the web) διαθέσιμο στο διαδίκτυο:
Ύλη Μαθήματος
Το μάθημα καλύπτει τις βασικές αρχές, αλγόριθμους και εφαρμογές
της εξόρυξης γνώσης από μεγάλα σύνολα δεδομένων.
Πρόγραμμα Διαλέξεων (προκαταρκτικό)
16 Φεβ |
Εισαγωγή |
|
23 Φεβ |
Συσταδοποίηση Ι |
|
2 Μαρ |
Συσταδοποίηση ΙΙ |
|
9 Μαρ |
Συσταδοποίηση ΙΙ (συνέχεια). Weka, Matlab.
|
Ανάθεση 1ου Συνόλου Ασκήσεων (Ημερ. Παρ. 13/4)
|
16 Μαρ |
Κατηγοριοποίηση I.
|
23 Μαρ |
Κατηγοριοποίηση IΙ
|
30 Μαρ |
Κατηγοριοποίηση ΙΙΙ
|
6 Απρ |
Κανόνες Συσχέτισης Ι
|
13 Απρ |
Κανόνες Συσχέτισηs II
|
4 Μαϊ |
web
|
Διαφάνειες
- Εισαγωγή
.ppt
.pdf
- Συσταδοποίηση Ι (εισαγωγή, k-means, ιεραρχική συσταδοποίηση)
.ppt
.pdf
- Συσταδοποίηση IΙ (DBScan, Εγκυρότητα (ποιότητα) συσταδοποίησης, BIRCH)
.ppt
.pdf
Ο αλγόριθμος BIRCH:
T. Zhang, R. Ramakrishnan and M. Linvy.
BIRCH: An Efficient Data Clustering Method for Very Large Databases, SIGMOD 1996
- Κατηγοριοποίηση Ι (εισαγωγή, δέντρα απόφασης, θέματα (εκτίμηση σφάλματος, υπερπροσαρμογή)
.ppt
.pdf
- Κατηγοριοποίηση IΙ (επανάληψη, αποτίμηση μοντέλου)
.ppt
.pdf
- Κατηγοριοποίηση IIΙ (κατηγοριοποίηση με κανόνες, κατηγοριοποιητές
κοντινότερου γείτονα, κατηγοριοποιητές Bayes, SVM)
.ppt
.pdf
- Κανόνες Συσχέτισης Ι (εισαγωγή, ο αλγόριθμος apriori
για τον υπολογισμό συχνών στοιχειοσυνόλων, παραγωγή κανόνων,
αναπαράσταση συνχών στοιχειοσυνόλων, άλλοι μέθοδοι υπολογισμού
συχνών στοιχειοσυνόλων)
.ppt
.pdf
- Κανόνες Συσχέτισης IΙ (ο αλγόριθμος FPGrowth)
.ppt
.pdf
- Κανόνες Συσχέτισης IΙI (μέτρα εκτίμησης και επεκτάσεις)
.ppt
.pdf
- Ανάλυση Συνδέσων, web και άλλα
.ppt
.pdf
Διαφάνειες Προηγούμενου Έτους εδώ
Βαθμολογία
Θα δοδούν 3 σύνολα ασκήσεων.
Οι ασκήσεις είναι απαλλακτικές, με την έννοια ότι όσοι δώσουν και
τα 3 σύνολα, μπορεί να μη δώσουν τελική εξέταση.
Για όσους δώσουν τελική εξέταση, οι ασκήσεις θα μετρήσουν σε ποσοστό 50%.
Ασκήσεις
Χρήσιμοι Σύνδεσμοι
Άσκηση 1
Εκφώνηση
Άσκηση 2
Εκφώνηση
Σύνολα δεδομένων
Άσκηση 3
Εκφώνηση
Data Mining Software
Πηγές Πληροφοριών
Σχετικά Μαθήματα σε Ελληνικά Πανεπιστήμια