MYE012/ΠΛΕ059 Εξόρυξη Δεδομένων

Εαρινό Εξάμηνο, 2017

 

Αρχική

Υλικό

Διαφάνειες

Ασκήσεις

Διαφάνειες

Οι διαφάνειες του μαθήματος χρησιμοποιούν διαφάνειες και υλικό από άλλα μαθήματα και βιβλία. Ευχαριστούμε τους: Tan, Steinbach, Kumar, Anand Rajaraman, Jeff Ullman, Jure Leskovec, Evimaria Terzi, Mark Crovella, Aris Anagnostopoulos για το υλικό από τις διαφάνειες τους που χρησιμοποιήθηκε σε αυτό το μάθημα.

Εισαγωγή: Διαδικαστικές λεπτομέρειες για το μάθημα (pptx, pdf)

Διάλεξη 1: Εισαγωγή σην Εξόρυξη Δεδομένων (pptx, pdf)

Διάλεξη 2: Τι είναι δεδομένα; To data mining pipeline. Προεπεξεργασία και μετεπεξεργασία. Δειγματοληψία και κανονικοποίηση. (pptx, pdf)

Φροντιστήριο 1: Εισαγωγή στις διακριτές πιθανότητες. (pdf)

  • Ευχαριστίες στον Άρη Αναγνωστόπουλο για τις διαφάνειες.

Διάλεξη 3: Συχνά Στοιχειοσύνολα και Κανόνες Συσχέτισης. (pptx, pdf)

Φροντιστήριο 2: Εισαγωγή στην Python (pptx, pdf), (ipynb, html) και στα Pandas (pptx, pdf) (ipynb, html)

Διάλεξη 4: Ομοιότητα και απόσταση. Συστήματα συστάσεων. (pptx, pdf) 

Διάλεξη 5: Εύρεση όμοιων ζευγών. Min-hash signatures. Locality Sensitive Hashing. (pptx, pdf)

  • Κεφάλαιο 3 από το βιβλίο Mining Massive Datasets των Anand Rajaraman and Jeff Ullman, Jure Leskovec.

Διάλεξη 6: Μειωση διάστασης. Singular Value Decomposition (SVD). Principal Component Analysis (PCA). (pptx, pdf)

Διάλεξη 7: Ομαδοποίηση (clustering). Ο αλγόριθμος k-means. Ιεραρχική ομαδοποίηση. Ο αλγόριθμος DBSCAN.  (pptx, pdf)

Διάλεξη 8: Αξιολόγηση ομαδοποίησης. Mixture models και ο αλγόριθμος ΕΜ. (pptx, pdf)

Φροντιστήριο 3: Εισαγωγή στις βιβλιοθήκες Numpy, Scipy, SciKit για την επεξεργασία πινάκων (ipynb, html) και ομαδοποίηση και εξαγωγή χαρακτηρηστικών. (ipynb, html)

Διάλεξη 9: Κατηγοριοποίηση (classification). Δέντρα απόφασης. Αξιολόγηση κατηγοριοποίησης. (pptx, pdf) 

Διάλεξη 10: Άλλες μεθόδοι κατηγοριοποίσης. Nearest Neighbor Classifier, Support Vector Machines (SVM), Logistic Regression, Naive Bayes Classifier. Επιβλεπόμενη μάθηση. (pptx, pdf) 

Διάλεξη 11: Ανάλυση συνδέσμων για την ιεράρχηση στο Web. Τυχαίοι περίπατοι και ο αλγόριθμος PageRank. Ο αλγόριθμος HITS. Απορροφητικοί τυχαίοι περίπατοι. (pptx, pdf) 

Φροντιστήριο 4: Εισαγωγή στις βιβλιοθήκες SciKit για κατηγοριοποίηση. (ipynb,html). Εισαγωγή στην ανάλυση δικτύων με την βιβλιοθήκη NetworkX. (ipynb, html)

Διάλεξη 12: Προβληματα Κάλυψης. Προσεγγιστικοί αλγόριθμοι. (pptx, pdf)