-

Οργάνωση Δεδομένων και Εξόρυξη Πληροφορίας

  • Κωδικός: 5603
  • Εξάμηνο: Εξαμ. ΣΤ
  • Τύπος: Μάθημα Επιστημονικής Περιοχής (ΜΕΠ)
  • Κατηγορία: Μάθημα Ειδικότητας (ΜΕ)
  • Είδος: Επιλογής Υποχρεωτικό (ΕΥ), Μάθημα Κατεύθυνσης (ΜΚ)
  • Ειδικότητα: Μηχανικών Λογισμικού

1. ΜΑΘΗΣΙΑΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ

Το μάθημα συνιστά μία εισαγωγή στις σύγχρονες τάσεις που διαμορφώνουν το πλαίσιο της διαχείρισης και της αναλυτικής επεξεργασίας των δεδομένων με στόχο την υποστήριξη των διαδικασιών λήψης αποφάσεων. Πιο συγκεκριμένα, εξετάζονται τεχνολογίες και περιβάλλοντα ανάπτυξης εφαρμογών που αφορούν στην προετοιμασία, στην προεπεξεργασία και στην οργάνωση των δεδομένων με στόχο την αναλυτική τους επεξεργασία προς εξόρυξη πληροφορίας από μεγάλες βάσεις δεδομένων.

Με την επιτυχή ολοκλήρωση του μαθήματος ο φοιτητής / τρια θα είναι σε θέση να:

1) διακρίνει τη διαφορά μεταξύ ενός κλασικού περιβάλλοντος βάσης δεδομένων που διεκπεραιώνει συναλλαγές σε πραγματικό χρόνο από μία αποθήκη δεδομένων
2) περιγράφει τα επιμέρους στάδια της ροής της επεξεργασίας στην αποθήκη δεδομένων
3) εκτιμά την έννοια της αγοράς δεδομένων (data mart)
4) δημιουργεί/παράγει μία αποθήκη δεδομένων εφαρμόζοντας βασικές τεχνικές όπως τα σχήματα αστέρα, χιονονιφάδας και αστερισμού
5) γνωρίζει τις βασικές έννοιες της αναλυτικής επεξεργασίας με άμεση επικοινωνία,
6) δημιουργεί/παράγει πολυδιάστατους κύβων δεδομένων
7) εφαρμόζει τις τέσσερις βασικές πράξεις επεξεργασίας των κύβων δεδομένων, ειδικότερα: (α) τεμαχισμού σε φέτες, (β) τεμαχισμού σε κύβους, σύμπτυξης ή συνάθροισης, (γ) ανάπτυξης και (δ) περιστροφής
8) εφαρμόζει τεχνικές MOLAP (Multidimensional OLAP) και ROLAP (Relational OLAP) στην υλοποίηση συστημάτων OLAP
9) διακρίνει τη διαφορά της έννοιας ‘δεδοµένα’ από την έννοια ‘πληροφορία’
10) εκτιμά τη σημασία και τη χρησιμότητα των διαφόρων τύπων γραφικής απεικόνισης των δεδομένων αυτών καθεαυτών, καθώς επίσης και της απεικόνισης των αποτελεσμάτων στην έξοδο της αναλυτικής τους επεξεργασίας
11) αναγνωρίζει την αποτελεσματικότητα των τεχνικών ελάττωσης των διαστάσεων (dimensionality reduction) σε ειδικές περιπτώσεις εφαρμογών αναλυτικής επεξεργασίας δεδομένων
12) ερμηνεύει και εφαρμόζει στην πράξη βασικές τεχνικές εξόρυξης πληροφορίας από βάσεις δεδοµένων, όπως η παραγωγή κανόνων συσχετισµού, η δηµιουργία δένδρου αποφάσεων και η παραγωγή συστάδων δεδομένων
13) αναπτύσσει/παράγει κώδικα εξόρυξης πληροφορίας από δεδομένα χρησιμοποιώντας τα προγραμματιστικά περιβάλλοντα WEKA και RStudio
14) διακρίνει τις επιδόσεις των διαφόρων τεχνικών εξόρυξης πληροφορίας
15) ερμηνεύει τα αποτελέσµατα που προκύπτουν στην έξοδο της αναλυτικής επεξεργασίας
16) αναπτύσσει/παράγει κώδικα παραγωγής συστάσεων (recommendations) οι οποίες εξυπηρετούν στόχους στρατηγικής πωλήσεων (και όχι µόνον)
17) περιγράφει την ποιοτική διαφοροποίηση του παραδείγματος της αναλυτικής επεξεργασίας δεδομένων του σημασιολογικού ιστού από εκείνο των δεδομένων τα οποία οργανώνονται ώστε η διαχείρησή τους να γίνεται μέσω ενός τυπικού περιβάλλοντος DBMS/OLAP/Data Warehouse

2. ΠΕΡΙΕΧΟΜΕΝΟ ΜΑΘΗΜΑΤΟΣ

  • Διαφορές μεταξύ ενός κλασικού περιβάλλοντος βάσης δεδομένων που διεκπεραιώνει συναλλαγές σε πραγματικό χρόνο (OnLine Transaction Processing, OLTP) από μία αποθήκη δεδομένων
  • Τα επιμέρους στάδια της ροής της επεξεργασίας στην αποθήκη δεδομένων
  • Διαχείριση των μεταδεδομένων μιας αποθήκης δεδομένων
  • Η έννοια της αγοράς δεδομένων (data mart) και τα της εφαρμογής της στην πράξη
  • Μελέτη των σχημάτων αστέρα, χιονονιφάδας και αστερισμού για το σχεδιασμό και την κατασκευή μίας αποθήκης δεδομένων
  • Οργάνωση των δεδομένων για αναλυτική επεξεργασία
  • Βασικές έννοιες της αναλυτικής επεξεργασίας με άμεση επικοινωνία (OnLine Analytical Processing, OLAP),
  • Σχεδιασμός και υλοποίηση ιεραρχιών εννοιών και πολυδιάστατων κύβων δεδομένων
  • Επεξεργασία των κύβων δεδομένων με πράξεις τεμαχισμού σε φέτες (slicing), τεμαχισμού σε κύβους (dicing), σύμπτυξης ή συνάθροισης (roll-up, aggregation), ανάπτυξης (drill-down) και περιστροφής (rotation)
  • Εναλλακτικές επιλογές υλοποίησης συστημάτων OLAP: MOLAP (Multidimensional OLAP) και ROLAP (Relational OLAP)
  • Το περιβάλλον Oracle Warehouse Builder
  • Το περιβάλλον Analytic Workspace Manager for Oracle OLAP
  • Δεδομένα και πληροφορία
  • Τύποι δεδομένων
  • Τύποι πληροφορίας/γνώσης
  • Παραδείγματα εφαρμογών εξόρυξης πληροφορίας από δεδομένα
  • Ιστορικά στοιχεία: υποκείμενες τεχνολογίες και επιστήμες / προπομποί του σύγχρονου περιβάλλοντος αναλυτικής επεξεργασίας των δεδομένων
  • Προβλήματα ποιότητας των δεδομένων: θόρυβος, απομονωμένες τιμές, ελλείπουσες τιμές, ασυνεπή δεδομένα
  • Προετοιμασία, μετασχηματισμοί και ελάττωση των διαστάσεων των δεδομένων
  • Τεχνικές και αλγόριθμοι κατηγοριοποίησης (classification)
  • Τεχνικές και αλγόριθμοι συσταδοποίησης (clustering)
  • Τεχνικές και αλγόριθμοι παραγωγής κανόνων συσχετισμού (association rules)
  • Το προγραμματιστικό περιβάλλον WEKA
  • Το προγραμματιστικό περιβάλλον RStudio/R
  • Όψεις βραχείας διάρκειας στην SQL
  • Ο αλγόριθμος και κώδικας ενός τυπικού συστήματος παραγωγής συστάσεων (recommender system)
  • Εξόρυξη πληροφορίας από συνδεδεμένα δεδομένα (linked data) στο διαδίκτυο

3. ΔΙΔΑΚΤΙΚΕΣ και ΜΑΘΗΣΙΑΚΕΣ ΜΕΘΟΔΟΙ – ΑΞΙΟΛΟΓΗΣΗ

ΤΡΟΠΟΣ ΠΑΡΑΔΟΣΗΣ

Στην αίθουσα (διαλέξεις) και στο εργαστήριο (ασκήσεις πράξης)

ΧΡΗΣΗ ΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ

Διαθεσιμότητα επιλεγμένων διαλέξεων του μαθήματος σε μορφοποίηση ψηφιακού βίντεο, μέσω του εξυπηρετητή Video on Demand του τμήματος.
Χρήση περιβάλλοντος εικονικής μηχανής (virtual machine) της διεθνούς σύμπραξης DBTechNet με προ-εγκατεστημένο λογισμικό διαφόρων (ελεύθερων) συστημάτων RDBMS: IBM DB2 Express-C, Oracle Express, PostgreSQL, MySQL, Virtuoso.
Χρήση εξειδικευμένου λογισμικού της Oracle για OLAP επεξεργασία και ειδικότερα το (α) Oracle Warehouse Builder, (β) Analytic Workspace Manager for Oracle OLAP.
Πρόσβαση σε και χρήση του εκπαιδευτικού περιεχομένου των αντίστοιχων μαθημάτων της διεθνούς σύμπραξης DBTechNet (http://dbtech.uom.gr): (a) OLAP & Data Warehousing, (b) Knowledge Discovery from Database Management Systems.
Υποστήριξη της μαθησιακής διαδικασίας μέσω της ηλεκτρονικής πλατφόρμας Moodle.

ΟΡΓΑΝΩΣΗ ΔΙΔΑΣΚΑΛΙΑΣ
Δραστηριότητα Φόρτος Εργασίας Εξαμήνου
Διαλέξεις 13 x 4= 52
Πρακτική εξάσκηση στο σπίτι 13 x 1 = 13
Ασκήσεις στο εργαστήριο 13 x 2 = 26
Επικοινωνία / συνεργασία 8
Αυτοτελής μελέτη 18 x 4.5 = 81
Σύνολο Μαθήματος (30 ώρες φόρτου εργασίας ανά πιστωτική μονάδα) 180
ΑΞΙΟΛΟΓΗΣΗ ΦΟΙΤΗΤΩΝ

Ι. Γραπτή τελική εξέταση (100%) στο θεωρητικό μέρος του μαθήματος με ερωτήσεις πολλαπλής επιλογής και ασκήσεις επί της θεματολογίας του μαθήματος που περιλαμβάνει:
– Ασκήσεις εφαρμογής αλγόριθμων εξόρυξης πληροφορίας από μικρά σύνολα δεδομένων
– Ασκήσεις στις (βραχείας διάρκειας ) όψεις SQL
– Ασκήσεις επί των βημάτων προεπεξεργασίας τα οποία απαιτούνται για την προσαρμογή/τροφοδοσία συνόλου δεδομένων στην είσοδο συγκεκριμένου αλγόριθμου προς αναλυτική επεξεργασία
– Ερωτήσεις πολλαπλής επιλογής που αφορούν στην ποιοτική αξιολόγηση του αποτελέσματος στην έξοδο της αναλυτικής επεξεργασίας (confusion matrix, recall, precision, κλπ.)
– Ασκήσεις εφαρμογής τεχνικών ελάττωσης των διαστάσεων των δεδομένων εισόδου
– Ερωτήσεις πολλαπλής επιλογής και ασκήσεις επί περιπτώσεων σύγκρισης των επιδόσεων μοντέλων και τεχνικών αναλυτικής επεξεργασίας δεδομένων
– Ασκήσεις δημιουργίας αποθήκης δεδομένων με σχήματα αστέρα, χιονονιφάδας, αστερισμού
– Ασκήσεις εφαρμογής τεχνικών ROLAP
– Ερωτήσεις πολλαπλής επιλογής που αφορούν στην επεξεργασία του περιεχομένου αποθήκης δεδομένων

ΙΙ. Προαιρετική εργασία εξαμήνου (έως το 35% του τελικού βαθμού στο μάθημα)
– Το θέμα της εργασίας προτείνεται από τον φοιτητή ή επιλέγεται από υποψήφια θέματα που προτείνει ο καθηγητής και σχετίζεται πάντα με τεχνολογίες και τεχνικές της θεματολογίας του μαθήματος
– Η εργασία μπορεί να εκπονείται από έναν ή το πολύ δύο φοιτητές
– Οι εργασίες παρουσιάζονται από τους φοιτητές στο ακροατήριο του μαθήματος σε ημερομηνίες οι οποίες τοποθετούνται στις δύο τελευταίες διδακτικές εβδομάδες του ακαδημαϊκού εξαμήνου. Βαθμολογούνται από τον καθηγητή ή τους συν-διδάσκοντες καθηγητές του μαθήματος

Το ως άνω σχήμα αξιολόγησης γνωστοποιείται στους ενδιαφερόμενους φοιτητές (α) μέσω της ιστοσελίδας του τμήματος, (β) μέσω των σελίδων του μαθήματος στην ηλεκτρονική πλατφόρμα Moodle, και (γ) με ανακοινώσεις στη διάρκεια των πρώτων διαλέξεων κατά την έναρξη του κάθε ενός ακαδημαϊκού εξαμήνου.

4. ΣΥΝΙΣΤΩΜΕΝΗ-ΒΙΒΛΙΟΓΡΑΦΙΑ

α) Ελληνική

  • R. Elmasri και S.B. Navathe, Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων, (5η έκδοση αναθεωρημένη) τόμοι Α! και Β!, Εκδόσεις Εκδόσεις ‘Δίαυλος’, Αθήνα 2008
  • J.D. Ullman, J. Widom, Βασικές Αρχές για τα Συστήματα Βάσεων Δεδομένων, Εκδόσεις ‘Κλειδάριθμος’, Αθήνα 2008
  • Ι. Μανωλόπουλος, Α. Παπαδόπουλος, Συστήματα Βάσεων Δεδομένων: Θεωρία και Πρακτική Εφαρμογή, Εκδόσεις Νέων Τεχνολογιών, Αθήνα 2006
  • R. Ramakrishnan και J. Gehrke, Συστήματα Διαχείρισης Βάσεων Δεδομένων, τόμοι Α! και Β!, Εκδόσεις Τζιόλα, Θεσσαλονίκη 2002
  • T. Connolly, C. Begg, και A. Strachan, Συστήματα Βάσεων Δεδομένων: Μια πρακτική προσέγγιση στο σχεδιασμό, υλοποίηση και διεύθυνση, τόμοι Α και Β, Εκδόσεις Ίων, Αθήνα 2001
  • Χ. Σκουρλάς, Σχεσιακές Βάσεις Δεδομένων, Εκδόσεις Νέων Τεχνολογιών, Αθήνα 2000
  • Δ.Α. Δέρβος, Μαθήματα Βάσεων Δεδομένων, τόμος Α!, Εκδόσεις Τζιόλα, Θεσσαλονίκη 1995

β) Διεθνής

  • T. Connolly, C. Begg, Database Systems: A Practical Approach to design, Implementation, and Management, 5th Edition, Addison Wesley, 2010
  • R. Elmasri και S.B. Navathe, Fundamentals of Database Systems, 5th Edition, Addison-Wesley 2006
  • R. Ramakrishnan και J. Gehrke, Database Management Systems, 3rd Edition, Mc Graw-Hill, 2002
  • J.D. Ullman, J. Widom, A First Course in Database Systems, Prentice-Hall, 2007
  • G. Antoniou and F. van Harmelen, A Semantic Web Primer, 2nd Edition, MIT Press, 2008
  • B. DuCharme, Learning SPARQL: Querying and Updating with SPARQL 1.1, O’Reilly, 2011

Πρόσφατες Ανακοινώσεις

14 Ιούν 2019
Θέση Εργασίας: Μηχανικός Λογισμικού
29 Μάι 2019
Εθελοντική δράση καθαριότητας από το IEEE Student Branch ATEITHE
27 Μάι 2019
Τετάρτη 29/5/19, και ώρα 13.30 – i-Mentor, Επιτυχημένο mentoring; Τι θα κερδίσω;
22 Μάι 2019
Φόρμα συμμετοχής στο δίκτυο i-Mentor
14 Μάι 2019
Προσκεκλημένη Ομιλία Prof. Athina Petropulu, Rutgers University, USA
13 Μάι 2019
H2020 Marie Curie ITN project TeamUp5G – OPEN 2 ESR positions in Thessaloniki!
12 Μάι 2019
Μετακίνηση με Erasmus+ (πρακτική άσκηση/after placement/πτυχιακή)
9 Μάι 2019
πρόγραμμα εξεταστικής Ιουνίου

Πρόσφατες Εκδηλώσεις

10 Ιούν 2019
Ημερίδα «Εθνική Στρατηγική Κυβερνοασφάλειας» στο Υπουργείο Ψηφιακής Πολιτικής
14 Απρ 2019
6ο Technology Forum – 15 Απριλίου 2019 (τελικό πρόγραμμα)
19 Μάρ 2019
6ο Technology Forum – 15 Απριλίου 2019 (εισιτήρια με μειωμένο κόστος)
19 Μάρ 2019
OWASP Student Chapter Συνάντηση «Introduction to Digital Forensics»
17 Δεκ 2018
Ομιλία του καθηγητή Man Wai Mak (Hong Kοng Polytechnic University)
3 Δεκ 2018
Εκδήλωση «Robotic Operating System to Reality»
27 Νοέ 2018
IEEE Career Day 2018
16 Νοέ 2018
Livestreaming των εργασιών του SingularityU Greece Summit (19-20 Νοεμβρίου 2018)

Δείτε επίσης