Πολυμεταβλητή Στατιστική Ανάλυση

Διδάσκων

Δημήτρης Καρλής

 

Σκοπός του μαθήματος

Ο σκοπός του μαθήματος είναι να γνωρίσει στους φοιτητές μεθόδους ανάλυσης πολυμεταβλητών δεδομένων, συμπεριλαμβανομένων προβλημάτων περιγραφής τέτοιων δεδομένων, στατιστικής συμπερασματολογίας, μεθόδους μείωσης των διαστάσεων ενός προβλήματος, προβλήματα συσταδοποίησης και κατάταξης δεδομένων. Επίσης το μάθημα σκοπεύει να διδάξει κατάλληλα υπολογιστικά εργαλεία ώστε οι φοιτητές να μπορούν να δουλεύουν με τέτοια δεδομένα.

Εκπαιδευτικοί στόχοι

Στο τέλος του μαθήματος ο φοιτητής θα είναι ικανός

  • Να εφαρμόζει βασικές μεθόδους πολυμεταβλητής στατιστικής ανάλυσης
  • Να μπορεί να δουλεύει με μεγάλο όγκο δεδομένων και να επιλέγει την κατάλληλη μεθοδολογία για να  ανακτήσει πληροφορίες από αυτά
  • Να κάνει γραφήματα και να κατανοεί την ύπαρξη σχέσεων στα δεδομένα του
  • Να εφαρμόζει στατιστική συμπερασματολογία για πολυμεταβλητά δεδομένα
  • Να χρησιμοποιεί μεθόδους μείωσης των διαστάσεων ενός προβλήματος

Περιεχόμενα του μαθήματος

Πολυμεταβλητά δεδομένα, πολυμεταβλητά περιγραφικά μέτρα, πίνακας διακύμανσης, γενικευμένη διακύμανση. Γραφήματα για την περιγραφή πολυμεταβλητών δεδομένων. Πολυμεταβλητές κατανομές, βασικές ιδιότητες και χειρισμός. Πολυμεταβλητή κανονική κατανομή. Ιδιότητες. Εκτίμηση. Κατανομές που προκύπτουν από την πολυμεταβλητή κανονική κατανομή. Ανάλυση σε κύριες συνιστώσες, φασματική ανάλυση πίνακα διακύμανσης, επιλογή κυρίων συνιστωσών, ερμηνεία κυρίων συνιστωσών. Ανάλυση σε κύριες συνιστώσες σε δειγματικά δεδομένα. Παραγοντική ανάλυση, το ορθογώνιο παραγοντικό μοντέλο. Τρόποι εκτίμησης, περιστροφή του μοντέλου, ερμηνεία αποτελεσμάτων, εφαρμογές. Το πολυμεταβλητό γραμμικό μοντέλο, πολυμεταβλητή παλινδρόμηση, πολυμεταβλητή ανάλυση διακύμανσης. Oμαδοποίηση (Συσταδοποιηση). Η έννοια της απόστασης. ιεραρχική ομαδοποίηση. Αλγόριθμος K-means. Model Based Clustering. Δείκτες επιτυχίας της ομαδοποίησης, σύγκριση ομαδοποιήσεων. Μέθοδοι κατάταξης. Χρήση κανόνα πιθανοφάνειας και κανόνα του Bayes.. Διακριτική ανάλυση κατά Fisher. Άλλες μέθοδοι κατάταξης, δέντρα αποφάσεων, μέθοδος κοντινότερου γειτονα. Αξιολόγηση κατάταξης. Χρήση της R για όλα τα παραπάνω

Ωρες διδασκαλίας

Το μάθημα έχει σχεδιαστεί να καλύπτει εννέα(9)  4ωρα. Σε αυτά συμπεριλαμβάνονται και ώρες εργαστηρίων.

Αξιολόγηση
Η αξιολόγηση του μαθήματος γίνεται τόσο με γραπτές εξετάσεις όσο και εργασίες κατά τη διάρκεια του μαθήματος. Ο τελικός βαθμός  προκύπτει ως

80% τελικό γραπτό  εξετάσεων  +   20% εργασίες

Οι εργασίες είναι 2  και σε  αυτές βαθμολογείται τόσο η μεθοδολογία που χρησιμοποιήθηκε α αλλά και ο τρόπος παρουσίασης

Βιβλιογραφία προς μελέτη

  • Anderson, T. W. (1984). An Introduction to Multivariate Statistical Analysis, John Wiley & Sons, New York, 2nd edition.
  • Basilevski, Α. (1994). Statistical Factor Analysis and Related Methods. Theory and Applications. John Wiley & Sons.
  • Chatfield, C. and Collins, A.J. (1992). Introduction to Multivariate Analysis.
  • Jackson, J. (1991). A User’s Guide to Principal Components, John Wiley & Sons, Inc., New York, NY.
  • Krzanowski, W. J. (1988). Principles of Multivariate Analysis. Oxford University Press.
  • Mardia, K. V., Kent, J. T. & Bibby, J. M. (1979). Multivariate Analysis. London: Academic Press.
  • Reyment, R. and Joreskog, K. (1996). Applied Factor Analysis in the Natural Science, Cambridge University Press.
  • Gareth JamesDaniela WittenTrevor Hastie and Robert Tibshirani (2014) An Introduction to Statistical Learning with Applications in R,  4th edition Springer text in statistics. http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf
  • Καρλής, Δ. (2005). Πολυμεταβλητή Στατιστική Ανάλυση. Εκδόσεις Σταμούλη.