MYE012/ΠΛΕ059 – Εξόρυξη Δεδομένων
Χειμερινό Εξάμηνο 2021
|
Διαφάνειες
Οι διαφάνειες
του μαθήματος χρησιμοποιούν διαφάνειες και υλικό από
άλλα μαθήματα και βιβλία. Ευχαριστούμε τους: Tan,
Steinbach, Kumar, Anand Rajaraman, Jeff Ullman, Jure Leskovec, Evimaria
Terzi, Mark Crovella, Aris Anagnostopoulos
για το υλικό από τις διαφάνειες τους που χρησιμοποιήθηκε
σε αυτό το μάθημα.Εισαγωγή: Διαδικαστικές λεπτομέρειες για το μάθημα (pptx, pdf) Διάλεξη 1: Εισαγωγή σην Εξόρυξη Δεδομένων (pptx, pdf)
Διάλεξη 2: Τι είναι δεδομένα; To
data mining pipeline. Προεπεξεργασία και
μετεπεξεργασία. Δειγματοληψία και
κανονικοποίηση. (pptx, pdf)
Φροντιστήριο
1: Εισαγωγή στις
πιθανότητες. (pptx,
pdf)
Διάλεξη 3: Εξερεύνηση δεδομένων και
βασική στατιστική ανάλυση (pptx, pdf)
Φροντιστήριο 2: Εισαγωγή στα notebooks.
Χρήσιμες βιβλιοθήκες στην Python Διάλεξη 4: Ομοιότητα και απόσταση.
Συστήματα συστάσεων. (pptx, pdf)
Φροντιστήριο 3: Εισαγωγή στη βιβλιοθήκη Pandas
Φροντιστήριο 4: Βιβλιοθήκες για
στατιστική ανάλυση και plotting
Διάλεξη 5: Μειωση διάστασης.
Singular Value Decomposition (SVD). Principal
Component Analysis (PCA). Model-Based
collaborative filtering (pptx, pdf)
Φροντιστήριο 5: Εισαγωγή στη βιβλιοθήκη numpy και scipy για επεξεργασία πινάκων (ipynb, html, html slides, pdf). Διάλεξη 6: Ομαδοποίηση (clustering). Ο αλγόριθμος k-means.
Ιεραρχική ομαδοποίηση. Ο αλγόριθμος DBSCAN.
Αξιολόγηση ομαδοποίησης (pptx, pdf)
Φροντιστήριο 6: Βιβλιοθήκες για data
preprocessing (ipynb, html, html
slides, pdf) Διάλεξη 7: Mixture
models και ο αλγόριθμος ΕΜ. (pptx, pdf)
Φροντιστήριο 7: Εισαγωγή στη βιβλιοθήκη SciKit-Learn (sklearn) για clustering (ipynb, html, html slides, pdf) Διάλεξη 8: Εισαγωγή στην
επιβλεπόμενη μάθηση. Γραμμική παλινδρόμηση (Linear
Regression). Κατηγοριοποίηση (classification). Δέντρα απόφασης,
Classifier Expressiveness. Nearest Neighbor
Classification, Support Vector Machines, Logistic
Regression, (Naive Bayes Classification). (pptx, pdf)
Διάλεξη 9: Neural Networks και Word
Embeddings. Αξιολόγηση
κατηγοριοποίησης. To pipeline της επιβλεπόμενη
μάθησης. (pptx, pdf)
Φροντιστήριο 8: Εισαγωγή
στην βιβλιοθήκη SciKit-learn (sklearn) για
classification. H βιβλιοθήκη gensim και word
embeddings. (Notebook: ipynb, html, html slides). Διάλεξη 10: Ανάλυση συνδέσμων για
την ιεράρχηση στο Web. Τυχαίοι περίπατοι και ο
αλγόριθμος PageRank. Ο αλγόριθμος HITS. Απορροφητικοί τυχαίοι
περίπατοι και διάχυση τιμών (value propagation). (pptx, pdf)
Φροντιστήριο 9: Εισαγωγή στη βιβλιοθήκη NetworkX (Notebook: ipynb, html, html slides, pdf).
|