Τι είναι η Εξόρυξη Δεδομένων; Τα βασικά και οι τεχνικές τους.

Η ίδρυση της τέταρτης βιομηχανικής επανάστασης θα εξαρτηθεί σε μεγάλο βαθμό από τα δεδομένα(Data) και τη συνδεσιμότητα(Connectivity) . Οι Υπηρεσίες Ανάλυσης(Analysis Services) που είναι σε θέση να αναπτύξουν ή να δημιουργήσουν λύσεις εξόρυξης δεδομένων θα διαδραματίσουν βασικό ρόλο από αυτή την άποψη. Θα μπορούσε να βοηθήσει στην ανάλυση και την πρόβλεψη των αποτελεσμάτων της αγοραστικής συμπεριφοράς των πελατών για τη στόχευση πιθανών αγοραστών. Τα δεδομένα(Data) θα γίνουν ένας νέος φυσικός πόρος και η διαδικασία εξαγωγής σχετικών πληροφοριών από αυτά τα μη ταξινομημένα δεδομένα θα αποκτήσει τεράστια σημασία. Ως εκ τούτου, η σωστή κατανόηση του όρου – Εξόρυξη Δεδομένων(Data Mining) , των διαδικασιών και της εφαρμογής του θα μπορούσε να μας βοηθήσει να αναπτύξουμε μια ολιστική προσέγγιση σε αυτό το τσιτάτο.

Βασικά στοιχεία εξόρυξης δεδομένων(Data Mining Basics) και οι τεχνικές της

εξόρυξη δεδομένων

Η εξόρυξη δεδομένων, γνωστή και ως Ανακάλυψη γνώσης σε δεδομένα(Knowledge Discovery in Data) ( KDD ) αφορά την αναζήτηση μεγάλων αποθηκών δεδομένων για την αποκάλυψη μοτίβων και τάσεων που υπερβαίνουν την απλή ανάλυση. Αυτή, όμως, δεν είναι μια λύση ενός σταδίου αλλά μια διαδικασία πολλαπλών βημάτων και ολοκληρώνεται σε διάφορα στάδια. Αυτά περιλαμβάνουν:

1] Συλλογή και προετοιμασία δεδομένων

Ξεκινά με τη συλλογή δεδομένων και τη σωστή οργάνωσή τους. Αυτό βοηθά στη σημαντική βελτίωση των πιθανοτήτων εύρεσης των πληροφοριών που μπορούν να ανακαλυφθούν μέσω της εξόρυξης δεδομένων

2] Κατασκευή και αξιολόγηση μοντέλου

Το δεύτερο βήμα στη διαδικασία εξόρυξης δεδομένων είναι η εφαρμογή διαφόρων τεχνικών μοντελοποίησης. Αυτά χρησιμοποιούνται για τη βαθμονόμηση των παραμέτρων σε βέλτιστες τιμές. Οι τεχνικές που χρησιμοποιούνται εξαρτώνται σε μεγάλο βαθμό από τις αναλυτικές ικανότητες που απαιτούνται για την αντιμετώπιση μιας σειράς οργανωτικών αναγκών και για τη λήψη απόφασης.

Ας εξετάσουμε εν συντομία ορισμένες τεχνικές εξόρυξης δεδομένων. Διαπιστώθηκε ότι οι περισσότεροι οργανισμοί συνδυάζουν δύο ή περισσότερες τεχνικές εξόρυξης δεδομένων μαζί για να σχηματίσουν μια κατάλληλη διαδικασία που ανταποκρίνεται στις επιχειρηματικές απαιτήσεις τους.

Διαβάστε(Read) : Τι είναι τα μεγάλα δεδομένα;(What is Big Data?)

Τεχνικές Εξόρυξης Δεδομένων

  1. Association –  Association είναι μια από τις ευρέως γνωστές τεχνικές εξόρυξης δεδομένων. Σύμφωνα με αυτό, ένα μοτίβο αποκρυπτογραφείται με βάση μια σχέση μεταξύ στοιχείων στην ίδια συναλλαγή. Ως εκ τούτου(Hence) , είναι επίσης γνωστή ως τεχνική σχέσης. Οι έμποροι μεγάλης επωνυμίας βασίζονται σε αυτήν την τεχνική για να ερευνήσουν τις αγοραστικές συνήθειες/προτιμήσεις των πελατών. Για παράδειγμα, όταν παρακολουθούν τις αγοραστικές συνήθειες των ανθρώπων, οι έμποροι λιανικής ενδέχεται να αναγνωρίσουν ότι ένας πελάτης αγοράζει πάντα κρέμα όταν αγοράζει σοκολάτες και, επομένως, να προτείνει ότι την επόμενη φορά που θα αγοράσουν σοκολάτες μπορεί να θέλουν να αγοράσουν και κρέμα.
  2. Ταξινόμηση(Classification) – Αυτή η τεχνική εξόρυξης δεδομένων διαφέρει από τα παραπάνω στον τρόπο που βασίζεται στη μηχανική μάθηση και χρησιμοποιεί μαθηματικές τεχνικές όπως Γραμμικός(Linear) προγραμματισμός, Δέντρα αποφάσεων , (Decision)Νευρωνικά(Neural)δίκτυο. Στην ταξινόμηση, οι εταιρείες προσπαθούν να δημιουργήσουν λογισμικό που μπορεί να μάθει πώς να ταξινομεί τα στοιχεία δεδομένων σε ομάδες. Για παράδειγμα, μια εταιρεία μπορεί να ορίσει μια ταξινόμηση στην εφαρμογή ότι «δεδομένων όλων των αρχείων των εργαζομένων που προσφέρθηκαν να παραιτηθούν από την εταιρεία, προβλέπει τον αριθμό των ατόμων που είναι πιθανό να παραιτηθούν από την εταιρεία στο μέλλον». Κάτω από ένα τέτοιο σενάριο, η εταιρεία μπορεί να ταξινομήσει τα αρχεία των εργαζομένων σε δύο ομάδες που είναι «φεύγουν» και «παραμένουν». Στη συνέχεια, μπορεί να χρησιμοποιήσει το λογισμικό εξόρυξης δεδομένων για να ταξινομήσει τους υπαλλήλους σε ξεχωριστές ομάδες που δημιουργήθηκαν νωρίτερα.
  3. Ομαδοποίηση(Clustering)Διαφορετικό(Different)αντικείμενα που παρουσιάζουν παρόμοια χαρακτηριστικά ομαδοποιούνται σε ένα ενιαίο σύμπλεγμα μέσω αυτοματισμού. Πολλά τέτοια συμπλέγματα δημιουργούνται καθώς κλάσεις και αντικείμενα (με παρόμοια χαρακτηριστικά) τοποθετούνται σε αυτό ανάλογα. Για να το κατανοήσουμε καλύτερα, ας εξετάσουμε ένα παράδειγμα διαχείρισης βιβλίων στη βιβλιοθήκη. Σε μια βιβλιοθήκη, η τεράστια συλλογή βιβλίων είναι πλήρως καταγεγραμμένη. Τα στοιχεία του ίδιου τύπου παρατίθενται μαζί. Αυτό μας διευκολύνει να βρούμε ένα βιβλίο που μας ενδιαφέρει. Ομοίως, χρησιμοποιώντας την τεχνική ομαδοποίησης, μπορούμε να κρατήσουμε βιβλία που έχουν κάποια είδη ομοιοτήτων σε ένα σύμπλεγμα και να του δώσουμε ένα κατάλληλο όνομα. Έτσι, αν ένας αναγνώστης ψάχνει να πάρει ένα βιβλίο σχετικό με τα ενδιαφέροντά του, δεν έχει παρά να πάει σε αυτό το ράφι αντί να ψάξει σε ολόκληρη τη βιβλιοθήκη. Έτσι, η τεχνική ομαδοποίησης ορίζει τις κλάσεις και βάζει αντικείμενα σε κάθε κλάση,
  4. Πρόβλεψη(Prediction) – Η πρόβλεψη είναι μια τεχνική εξόρυξης δεδομένων που χρησιμοποιείται συχνά σε συνδυασμό με άλλες τεχνικές εξόρυξης δεδομένων. Περιλαμβάνει την ανάλυση των τάσεων, την ταξινόμηση, την αντιστοίχιση προτύπων και τη σχέση. Αναλύοντας γεγονότα ή περιστατικά του παρελθόντος με σωστή σειρά, μπορεί κανείς να προβλέψει με ασφάλεια ένα μελλοντικό γεγονός. Για παράδειγμα, η τεχνική ανάλυσης πρόβλεψης μπορεί να χρησιμοποιηθεί στην πώληση για την πρόβλεψη μελλοντικών κερδών εάν η πώληση επιλεγεί ως ανεξάρτητη μεταβλητή και το κέρδος ως μεταβλητή που εξαρτάται από την πώληση. Στη συνέχεια, με βάση τα ιστορικά δεδομένα πώλησης και κέρδους, μπορεί κανείς να σχεδιάσει μια προσαρμοσμένη καμπύλη παλινδρόμησης που χρησιμοποιείται για την πρόβλεψη του κέρδους.
  5. Δέντρα αποφάσεων(Decision trees) – Μέσα στο δέντρο αποφάσεων, ξεκινάμε με μια απλή ερώτηση που έχει πολλαπλές απαντήσεις. Κάθε απάντηση οδηγεί σε μια περαιτέρω ερώτηση για να βοηθήσει στην ταξινόμηση ή τον προσδιορισμό των δεδομένων, ώστε να μπορεί να κατηγοριοποιηθεί ή έτσι ώστε να μπορεί να γίνει μια πρόβλεψη με βάση κάθε απάντηση. Για παράδειγμα, χρησιμοποιούμε το ακόλουθο δέντρο αποφάσεων για να καθορίσουμε εάν θα παίξουμε κρίκετ ODI : Εξόρυξη δεδομένων Δέντρο αποφάσεων(Data Mining Decision Tree) : Ξεκινώντας από τον ριζικό κόμβο, εάν η πρόγνωση καιρού προβλέπει βροχή, τότε θα πρέπει να αποφύγουμε τον αγώνα για την ημέρα. Εναλλακτικά, αν η πρόγνωση του καιρού είναι καθαρή, θα πρέπει να παίξουμε τον αγώνα.

Η Εξόρυξη Δεδομένων(Data Mining) βρίσκεται στο επίκεντρο των προσπαθειών ανάλυσης σε διάφορους κλάδους και κλάδους όπως οι επικοινωνίες, οι ασφάλειες(Insurance) , η εκπαίδευση(Education) , η βιομηχανία(Manufacturing) , οι τράπεζες(Banking) και το λιανικό εμπόριο(Retail) και πολλά άλλα. Επομένως, είναι απαραίτητο να έχετε σωστές πληροφορίες σχετικά με αυτό πριν εφαρμόσετε τις διαφορετικές τεχνικές.



About the author

Είμαι μηχανικός λογισμικού με πάνω από δύο χρόνια εμπειρία σε εφαρμογές για φορητές συσκευές και επιτραπέζιους υπολογιστές. Έχω εξειδίκευση στις ενημερώσεις των Windows, τις υπηρεσίες και το Gmail. Οι δεξιότητές μου με κάνουν τον τέλειο υποψήφιο για εργασίες όπως η ανάπτυξη εφαρμογών Windows ή η συντήρηση προγραμμάτων-πελατών email.



Related posts