ΜΥΕ012/ΠΛΕ059 – Εξόρυξη Δεδομένων

Χειμερινό Εξάμηνο, 2019

Υλικό

Βιβλία και Διαφάνειες

· Υλικό από το βιβλίο “Introduction to Data Mining” των Tan, Steinbach, Kumar.

· Mining Massive Datasets by Anand Rajaraman, Jeff Ullman, and Jure Leskovec. Δωρεάν online βιβλίο. Περιλαμβάνει και διαφάνειες από το μάθημα.

· All of Statistics by Larry A. WassermanAll of Statistics by Larry A. WassermanAll of Statistics by Larry A. Wasserman

· Introduction to Information Retrieval των C. Manning, P. Raghavan, H. Schutze. Δωρεάν online βιβλίο.

· Networks Crowds and Markets των D. Easley, J. Kleinberg. Δωρεάν online βιβλίο.

· Social Media Mining των R. Zafarani, M. Ali Abbasi, H. Liu. Δωρεάν online βιβλίο.

· Υλικό από το βιβλίο “Data Mining: Concepts and Techniques”, των Jiawei Han and Micheline Kamber.

· The Data Science Design Manual του Steven Skiena.

· All of Statistics του Larry A. Wasserman

Python

· Σημειώσεις από το μάθημα Computational Tools for Data Science στο Boston University.

· Cookbooks: Περιλαμβάνει παραδείγματα χρήσης του Iron Python, κώδικα και δεδομένα.

o Iron Python Cookbook

o IPython Cookbook

Χρήσιμες εντολές Unix

Οι παρακάτω unix εντολές μπορεί να σας φανούν χρήσιμες για το pre-processing των δεδομένων,:

· cut: επιτρέπει να πάρουμε συγκεκριμένες κολώνες από ένα αρχείο με διαχωριζόμενες τιμές

· sort: ταξινομεί τις γραμμές ενός αρχείου σε αλφαβητική σειρά . –n for αριθμητική σειρά

· uniq: αφαιρεί συνεχόμενες γραμμές που είναι ίδιες.

· grep: βρίσκει μια έκφραση μέσα σε ένα αρχείο.

Κάνετε “man <εντολή>” σε unix/linux για περισσότερες πληροφορίες για κάθε εντολή.

Λογισμικό

· WEKA Data Mining Software: Software πακέτο που υλοποιεί διάφορους αλγόριθμους εξόρυξης δεδομένων.

· FIMI: Frequent Itemsets Mining Implementation: Μία σελίδα με πολλαπλές υλοποιήσεις αλγορίθμων για εξόρυξη συχνών στοιχειοσυνόλων. Όλοι οι αλγόριθμοι υποθέτουν είσοδο στο format των παραδειγμάτων στη σελίδα: κάθε γραμμή είναι ένα «καλάθι» από ακεραίους που χωρίζονται με κενό.

· Liblinear: Software πακέτο για κατηγοριοποίηση. Υλοποιεί Logistic Regression και SVM classifier.

Δεδομένα

· The Yelp Academic Challenge dataset

· UCI Machine Learning Repository

o Το Iris dataset (ARFF αρχείο).Το link στο UCI repository.

o To SpamBase dataset (ARFF αρχείο). Το link στο UCI repository.

o Το Mushroom dataset (ARFF file). Το link στο UCI repository.

· Movie Lens Datasets από το GroupLens Research

· FourSquare tips on Restaurants: μια συλλογή από foursquare tips για εστιατόρια της Νέας Υόρκης (Ευχαριστίες στον Γιάννη Κοτρώτσιο).

· FourSquare tips with categories: μια συλλογή από foursquare tips με την κατηγορία της επιχείρησης για εστιατόρια, κέντρα νυχτερινής διασκέδασης και καταστήματα από την Νέας Υόρκη (Ευχαριστίες στον Γιάννη Κοτρώτσιο).

· FourSquare users and venues: μια συλλογή από ζεύγη από user ids και venue names στην περιοχή της Νέας Υόρκης, όπου ο χρήστης με το συγκεκριμένο id έχει αφήσει tip στο συγκεκριμένο venue στο Foursquare (Ευχαριστίες στον Γιάννη Κοτρώτσιο).

· Twitter data από το paper “What is Twitter, a Social Network, or a News Media?” των Haewoon Kwak, Changhyun Lee, Hosung Park, and Sue Moon. Για την πρώτη άσκηση θα χρειαστείτε το Restricted User Profiles αρχείο. Τα πεδία του αρχείου εξηγούνται στην ίδια σελίδα, θα χρειαστείτε το ενδέκατο πεδίο που έχει το description.

· English Stopwords. Txt αρχείο με λίστα από συχνές αγγλικές λέξεις (stopwords).

· SpamAssassin.

· Stanford Network Analysis Project Datasets.

· Movie-Actor Graph. Κάθε γραμμή στο αρχείο είναι ένα ζεύγος ταινία, ηθοποιός, χωρισμένο με tab, δηλαδή αντιστοιχεί σε μια ακμή του γράφου.