MYE012/ΠΛΕ059 – Εξόρυξη Δεδομένων

Χειμερινό Εξάμηνο 2021

Διαφάνειες

Οι διαφάνειες του μαθήματος χρησιμοποιούν διαφάνειες και υλικό από άλλα μαθήματα και βιβλία. Ευχαριστούμε τους: Tan, Steinbach, Kumar, Anand Rajaraman, Jeff Ullman, Jure Leskovec, Evimaria Terzi, Mark Crovella, Aris Anagnostopoulos για το υλικό από τις διαφάνειες τους που χρησιμοποιήθηκε σε αυτό το μάθημα.

Εισαγωγή: Διαδικαστικές λεπτομέρειες για το μάθημα (pptx, pdf)

Διάλεξη 1: Εισαγωγή σην Εξόρυξη Δεδομένων (pptx, pdf)

Κεφάλαιο 1 από το βιβλίο “Introduction to Data Mining” των Tan, Steinbach, Kumar.
Άρθρο: Data Scientist: The Sexiest Job of the 21st Century.

Διάλεξη 2: Τι είναι δεδομένα; To data mining pipeline. Προεπεξεργασία και μετεπεξεργασία. Δειγματοληψία και κανονικοποίηση. (pptx, pdf)

Κεφάλαιο 2 από το βιβλίο “Introduction to Data Mining” των Tan, Steinbach, Kumar.
Κεφάλαιο 1 από το βιβλίο Mining Massive Datasets των Anand Rajaraman and Jeff Ullman, Jure Leskovec.

Φροντιστήριο 1: Εισαγωγή στις πιθανότητες. (pptx, pdf)

Ευχαριστίες στον Άρη Αναγνωστόπουλο για τις διαφάνειες.
Part I από το βιβλίο All of Statistics του Larry A. Wasserman

Διάλεξη 3: Εξερεύνηση δεδομένων και βασική στατιστική ανάλυση (pptx, pdf)

Κεφάλαιο 1 από το βιβλίο Mining Massive Datasets των Anand Rajaraman and Jeff Ullman, Jure Leskovec.
Κεφάλαια 7-8 (confidence interval, standard error), 11 (hypothesis testing), 16 (independence and correlation tests) από το βιβλίο All of Statistics του Larry A. Wasserman (τα νούμερα των κεφαλαίων ειναι για το pdf, στο πραγματικό βιβλίο τα νουμερα ειναι -1 απο τα παραπάνω νούμερα).
Error bars in experimental biology.

Φροντιστήριο 2: Εισαγωγή στα notebooks. Χρήσιμες βιβλιοθήκες στην Python

Διαφάνειες: pptx, pdf
Notebook με Python Reminders (ipynb, html, html slides, pdf)

Διάλεξη 4: Ομοιότητα και απόσταση. Συστήματα συστάσεων. (pptx, pdf)

Κεφάλαιο 2 από το βιβλίο “Introduction to Data Mining” των Tan, Steinbach, Kumar.
Κεφάλαια 3,9 από το βιβλίο Mining Massive Datasets των Anand Rajaraman and Jeff Ullman, Jure Leskovec.
Άρθρο: The long tail.

Φροντιστήριο 3: Εισαγωγή στη βιβλιοθήκη Pandas

Notebook για Pandas (ipynb, html, html slides, pdf)
Tα αρχεία για τα notebooks
Σημειώσεις της Εβημαρίας Τερζή, και του Mark Crovella

Φροντιστήριο 4: Βιβλιοθήκες για στατιστική ανάλυση και plotting

Notebook για Plotting, Στατιστική Ανάλυση (ipynb, html, html slides, pdf)
The file example-functions.csv
Σημειώσεις της Εβημαρίας Τερζή, και του Mark Crovella

Διάλεξη 5: Μειωση διάστασης. Singular Value Decomposition (SVD). Principal Component Analysis (PCA). Model-Based collaborative filtering (pptx, pdf)

Κεφάλαιο 11 από το βιβλίο Mining Massive Datasets των Anand Rajaraman and Jeff Ullman, Jure Leskovec.
Παράρτηματα A,B από το βιβλίο “Introduction to Data Mining” των Tan, Steinbach, Kumar.
A tutorial on Principal Component Analysis, Jonathon Shlens

Φροντιστήριο 5: Εισαγωγή στη βιβλιοθήκη numpy και scipy για επεξεργασία πινάκων (ipynb, html, html slides, pdf).

Διάλεξη 6: Ομαδοποίηση (clustering). Ο αλγόριθμος k-means. Ιεραρχική ομαδοποίηση. Ο αλγόριθμος DBSCAN. Αξιολόγηση ομαδοποίησης (pptx, pdf)

Κεφάλαια 8,9 από το βιβλίο “Introduction to Data Mining” των Tan, Steinbach, Kumar.
Κεφάλαιο 7 από το βιβλίο Mining Massive Datasets των Anand Rajaraman and Jeff Ullman, Jure Leskovec.

Φροντιστήριο 6: Βιβλιοθήκες για data preprocessing (ipynb, html, html slides, pdf)

Διάλεξη 7: Mixture models και ο αλγόριθμος ΕΜ. (pptx, pdf)

Σημειώσεις πάνω στον EM αλγόριθμο από τον Άρη Αναγνωστόπουλο, University of Rome La Sapienza.

Φροντιστήριο 7: Εισαγωγή στη βιβλιοθήκη SciKit-Learn (sklearn) για clustering (ipynb, html, html slides, pdf)

Διάλεξη 8: Εισαγωγή στην επιβλεπόμενη μάθηση. Γραμμική παλινδρόμηση (Linear Regression). Κατηγοριοποίηση (classification). Δέντρα απόφασης, Classifier Expressiveness. Nearest Neighbor Classification, Support Vector Machines, Logistic Regression, (Naive Bayes Classification). (pptx, pdf)

Κεφάλαιο 14 (στο pdf) από το βιβλίο All of Statistics του Larry A. Wasserman
Κεφάλαια 4,5 από το βιβλίο “Introduction to Data Mining” των Tan, Steinbach, Kumar.
Κεφάλαιο 12 από το βιβλίο Mining Massive Datasets των Anand Rajaraman and Jeff Ullman, Jure Leskovec.
Κεφάλαιο 13 από το βιβλίο "Introduction to Information Retrieval" των C. Manning, P. Raghavan, H. Schutze

Διάλεξη 9: Neural Networks και Word Embeddings. Αξιολόγηση κατηγοριοποίησης. To pipeline της επιβλεπόμενη μάθησης. (pptx, pdf)

Κεφάλαια 4,5 από το βιβλίο “Introduction to Data Mining” των Tan, Steinbach, Kumar.
Κεφάλαιο 12 από το βιβλίο Mining Massive Datasets των Anand Rajaraman and Jeff Ullman, Jure Leskovec.
Chris Manning, Natural Language Processing with Deep Learning, Lecture Notes, Part I

Φροντιστήριο 8: Εισαγωγή στην βιβλιοθήκη SciKit-learn (sklearn) για classification. H βιβλιοθήκη gensim και word embeddings. (Notebook: ipynb, html, html slides).

Διάλεξη 10: Ανάλυση συνδέσμων για την ιεράρχηση στο Web. Τυχαίοι περίπατοι και ο αλγόριθμος PageRank. Ο αλγόριθμος HITS. Απορροφητικοί τυχαίοι περίπατοι και διάχυση τιμών (value propagation). (pptx, pdf)

Κεφάλαιο 21 από το βιβλίο "Introduction to Information Retrieval" των C. Manning, P. Raghavan, H. Schutze
Κεφάλαιο 14 από το βιβλίο "Networks Crowds and Markets" των D. Easley και J. Kleinberg
P. G. Doyle and J. L. Snell. Absorbing Random Walks and Electrical Networks.
Grindstead and Snell's Introduction to Probability (Chapter 11)

Φροντιστήριο 9: Εισαγωγή στη βιβλιοθήκη NetworkX (Notebook: ipynb, html, html slides, pdf).

Το graph_edges.txt αρχείο
Το graph-example.txt αρχείο
Το karate.gml αρχείο