MYE012/ΠΛΕ059 – Εξόρυξη Δεδομένων

Χειμερινό Εξάμηνο, 2015

 

Αρχική

Υλικό

Διαφάνειες

Ασκήσεις

Διαφάνειες

Οι διαφάνειες του μαθήματος χρησιμοποιούν διαφάνειες και υλικό από άλλα μαθήματα και βιβλία. Ευχαριστούμε τους: Tan, Steinbach, Kumar, Anand Rajaraman, Jeff Ullman, Jure Leskovec, Evimaria Terzi, Aris Anagnostopoulos για το υλικό από τις διαφάνειες τους που χρησιμοποιούμε σε αυτό το μάθημα.

Εισαγωγή: Διαδικαστικές λεπτομέρειες για το μάθημα (pptx, pdf)

Διάλεξη 1: Εισαγωγή σην Εξόρυξη Δεδομένων (pptx, pdf)

Διάλεξη 2
: Θεωρία Πιθανοτήτων. Τι ειναι τα δεδομένα. (pptx, pdf)


Διάλεξη 3
: To data mining pipeline. Προεπεξεργασία και μετεπεξεργασία.
Δειγματοληψία και κανονικοποίηση. (pptx, pdf)

Φροντιστήριο 1
: Εισαγωγή στην γλώσσα Python. (
pptx, pdf, ipynb)


Διάλεξη 4
: Συχνά Στοιχειοσύνολα και Κανόνες Συσχέτισης
. (pptx, pdf)

Φροντιστήριο 2
: Εισαγωγή στην βιβλιοθήκη Pandas. (
pptx, pdf, ipynb)


Διάλεξη 5
: Ομοιότητα και απόσταση. Συστήματα συστάσεων
. (pptx, pdf)

Διάλεξη 6
: Εύρεση όμοιων ζευγών. Min-hash signatures. Locality Sensitive Hashing
. (pptx, pdf)
  • Κεφάλαιο 3 από το βιβλίο Mining Massive Datasets των Anand Rajaraman and Jeff Ullman, Jure Leskovec.

Διάλεξη 7
: Μειωση διάστασης. Singular Value Decomposition (SVD). Principal Component Analysis (PCA)
. (pptx, pdf)

Διάλεξη 8
: Ομαδοποίηση (clustering)
. Ο αλγόριθμος k-means. Ιεραρχική ομαδοποίηση. Ο αλγόριθμος DBSCAN. (pptx, pdf)

Φροντιστήριο 3
: Εισαγωγή στις βιβλιοθήκες Numpy, Scipy, SciKit για την επεξεργασία πινάκων. (
ipynb)


Διάλεξη 9: Mixture models και ο αλγόριθμος ΕΜ. Αξιολόγηση ομαδοποίησης. (pptx, pdf)


Διάλεξη 10: Κατηγοριοποίηση (classification). Δέντρα απόφασης. Αξιολόγηση κατηγοριοποίησης. (pptx, pdf)


Φροντιστήριο 4
: Εισαγωγή στις βιβλιοθήκες SciKit για ομαδοποίηση και επεξεργασία κειμένου. (
ipynb)


Διάλεξη 11
:
Άλλες μεθόδοι κατηγοριοποίσης. Nearest Neighbor Classifier, Support Vector Machines (SVM), Logistic Regression, Naive Bayes Classifier. Επιβλεπόμενη μάθηση. (pptx, pdf)


Φροντιστήριο 5: Εισαγωγή στις βιβλιοθήκες SciKit για κατηγοριοποίηση. (ipynb)


Διάλεξη 12: Ανάλυση συνδέσμων για την ιεράρχηση στο Web. Τυχαίοι περίπατοι και ο αλγόριθμος PageRank. Ο αλγόριθμος HITS. (pptx, pdf)


Φροντιστήριο 6
: Εισαγωγή στην ανάλυση δικτύων με την βιβλιοθήκη NetworkX. (
ipynb)


Διάλεξη 13: Απορροφητικοί Τυχαίοι Περίπατοι. Προβληματα Κάλυψης. (pptx, pdf)