ΜΥΕ012/ΠΛΕ059
– Εξόρυξη
Δεδομένων
Χειμερινό
Εξάμηνο, 2019
|
|
|
Υλικό
Βιβλία και
Διαφάνειες
·
Υλικό από το
βιβλίο “Introduction to
Data Mining” των Tan, Steinbach, Kumar. ·
Mining Massive Datasets by Anand Rajaraman, Jeff Ullman, and Jure Leskovec. Δωρεάν online βιβλίο. Περιλαμβάνει
και
διαφάνειες
από το μάθημα. ·
All of
Statistics by Larry A. WassermanAll of
Statistics by Larry A. WassermanAll of
Statistics by Larry A. Wasserman ·
Introduction to Information Retrieval
των C. Manning, P. Raghavan, H. Schutze. Δωρεάν online βιβλίο. ·
Networks Crowds
and Markets των D. Easley, J. Kleinberg. Δωρεάν online βιβλίο. ·
Social Media Mining των R. Zafarani, M. Ali Abbasi, H.
Liu. Δωρεάν online βιβλίο. ·
Υλικό από το
βιβλίο “Data
Mining: Concepts and Techniques”, των Jiawei Han and Micheline Kamber. ·
The Data Science Design Manual του Steven Skiena. ·
All of
Statistics του
Larry A. Wasserman Python
·
Σημειώσεις από το μάθημα Computational
Tools for Data Science στο Boston University. ·
Cookbooks:
Περιλαμβάνει
παραδείγματα
χρήσης του Iron Python, κώδικα
και δεδομένα. Χρήσιμες
εντολές Unix
Οι
παρακάτω unix
εντολές
μπορεί να σας
φανούν χρήσιμες
για το pre-processing των
δεδομένων,: ·
cut:
επιτρέπει να
πάρουμε
συγκεκριμένες
κολώνες από ένα
αρχείο με
διαχωριζόμενες
τιμές ·
sort:
ταξινομεί
τις
γραμμές ενός
αρχείου σε αλφαβητική
σειρά . –n for
αριθμητική
σειρά ·
uniq:
αφαιρεί
συνεχόμενες
γραμμές που
είναι ίδιες. ·
grep:
βρίσκει μια
έκφραση μέσα
σε ένα αρχείο. Κάνετε “man
<εντολή>” σε unix/linux
για
περισσότερες
πληροφορίες
για κάθε
εντολή. Λογισμικό
·
WEKA Data Mining Software: Software πακέτο
που υλοποιεί
διάφορους
αλγόριθμους
εξόρυξης δεδομένων. ·
FIMI:
Frequent Itemsets Mining Implementation: Μία
σελίδα με
πολλαπλές
υλοποιήσεις
αλγορίθμων για
εξόρυξη
συχνών
στοιχειοσυνόλων.
Όλοι οι αλγόριθμοι
υποθέτουν
είσοδο στο format των
παραδειγμάτων
στη σελίδα: κάθε
γραμμή είναι
ένα «καλάθι» από
ακεραίους που
χωρίζονται με
κενό. ·
Liblinear: Software πακέτο
για
κατηγοριοποίηση.
Υλοποιεί Logistic Regression και SVM
classifier. Δεδομένα
·
The Yelp Academic Challenge
dataset ·
UCI Machine Learning Repository o Το Iris dataset (ARFF αρχείο).Το link
στο UCI repository. o To SpamBase dataset (ARFF
αρχείο).
Το link
στο
UCI repository. o Το Mushroom dataset (ARFF
file). Το link
στο UCI repository. ·
Movie Lens Datasets από το GroupLens Research ·
FourSquare tips on Restaurants: μια
συλλογή από foursquare tips για
εστιατόρια
της Νέας
Υόρκης
(Ευχαριστίες
στον Γιάννη
Κοτρώτσιο). ·
FourSquare tips with categories: μια
συλλογή από foursquare tips με την
κατηγορία της
επιχείρησης
για
εστιατόρια,
κέντρα νυχτερινής
διασκέδασης
και
καταστήματα
από την Νέας
Υόρκη
(Ευχαριστίες
στον Γιάννη
Κοτρώτσιο). ·
FourSquare users and venues: μια
συλλογή από
ζεύγη από user ids και venue names στην
περιοχή της
Νέας Υόρκης,
όπου ο χρήστης
με το συγκεκριμένο
id έχει
αφήσει tip στο
συγκεκριμένο venue στο Foursquare
(Ευχαριστίες
στον Γιάννη
Κοτρώτσιο). ·
Twitter data από το paper “What is Twitter, a Social Network, or a News
Media?” των Haewoon Kwak,
Changhyun Lee, Hosung Park, and Sue Moon. Για την
πρώτη άσκηση
θα χρειαστείτε
το Restricted User Profiles αρχείο.
Τα πεδία του
αρχείου
εξηγούνται
στην ίδια
σελίδα, θα
χρειαστείτε το
ενδέκατο
πεδίο που
έχει το description. ·
English Stopwords. Txt
αρχείο με
λίστα από
συχνές
αγγλικές
λέξεις (stopwords). ·
SpamAssassin. ·
Stanford Network Analysis
Project Datasets. ·
Movie-Actor Graph. Κάθε γραμμή
στο αρχείο
είναι ένα
ζεύγος ταινία,
ηθοποιός,
χωρισμένο με tab, δηλαδή
αντιστοιχεί
σε μια ακμή του
γράφου. |