Πώς να ανοίξετε πραγματικά μεγάλα αρχεία κειμένου και CSV

Το MS Excel(MS Excel) μπορεί να εμφανίσει 1.048.576 σειρές. Αν και μπορεί να φαίνεται σαν ένας πολύ μεγάλος αριθμός σε κανονική χρήση, υπάρχουν πολλά σενάρια όπου αυτό δεν είναι αρκετά.

Είτε κοιτάτε αρχεία καταγραφής είτε μεγάλα σύνολα δεδομένων, είναι εύκολο να συναντήσετε αρχεία CSV με εκατομμύρια σειρές ή τεράστια αρχεία κειμένου. Εφόσον το Excel(Excel) δεν μπορεί να υποστηρίξει τόσο μεγάλα αρχεία, πώς ακριβώς τα ανοίγετε; Ας ανακαλύψουμε.

Γιατί οι κανονικοί επεξεργαστές κειμένου(Normal Text Editors) δεν μπορούν να ανοίξουν πραγματικά μεγάλα αρχεία(Open Really Large Files) ;

Ένας υπολογιστής έχει gigabytes αποθηκευτικού χώρου, οπότε γιατί οι επεξεργαστές κειμένου δεν μπορούν να ανοίξουν μεγάλα αρχεία;

Εδώ παίζουν δύο παράγοντες. Ορισμένες εφαρμογές έχουν ένα σκληρό όριο για το πόσα δεδομένα μπορούν να εμφανίσουν. Δεν έχει σημασία πόση μνήμη έχει ο υπολογιστής σας, απλώς δεν θα τη χρησιμοποιήσει.

Το δεύτερο θέμα είναι η RAM . Πολλά προγράμματα επεξεργασίας κειμένου δεν έχουν αυστηρό όριο στον αριθμό των σειρών, αλλά δεν μπορούν να εμφανίσουν μεγάλα αρχεία λόγω περιορισμών μνήμης. Φορτώνουν ολόκληρο το αρχείο στη μνήμη RAM(RAM) του συστήματος , οπότε αν αυτή η μνήμη δεν είναι αρκετά μεγάλη, η διαδικασία αποτυγχάνει.

Μέθοδος #1: Χρήση δωρεάν προγραμμάτων επεξεργασίας

Ο καλύτερος τρόπος για να δείτε εξαιρετικά μεγάλα αρχεία κειμένου είναι να χρησιμοποιήσετε… ένα πρόγραμμα επεξεργασίας κειμένου. Όχι οποιοδήποτε πρόγραμμα επεξεργασίας κειμένου, αλλά τα εργαλεία που προορίζονται για τη σύνταξη κώδικα. Τέτοιες εφαρμογές μπορούν συνήθως να χειριστούν μεγάλα αρχεία χωρίς προβλήματα και είναι δωρεάν.

Το Large Text File Viewer(Large Text File Viewer) είναι ίσως η απλούστερη από αυτές τις εφαρμογές. Είναι πραγματικά εύκολο στη χρήση, λειτουργεί γρήγορα και έχει πολύ χαμηλό αποτύπωμα πόρων. Το μόνο μειονέκτημα; Δεν μπορεί να επεξεργαστεί τα αρχεία. Αλλά αν θέλετε να προβάλετε μόνο μεγάλα αρχεία CSV , αυτό είναι το καλύτερο εργαλείο για τη δουλειά.

Για την επεξεργασία μεγάλων αρχείων κειμένου επίσης, θα πρέπει να δοκιμάσετε το Emacs . Αρχικά δημιουργήθηκε για συστήματα Unix , λειτουργεί τέλεια και στα Windows και μπορεί να χειριστεί μεγάλα αρχεία. Ομοίως, το Neovim(Neovim) και το Sublime Text είναι δύο ελαφριά IDE(IDEs) που μπορούν να χρησιμοποιηθούν για το άνοιγμα αρχείων κειμένου CSV μεγέθους gigabyte .

Εάν το μόνο που ψάχνετε είναι να αναζητήσετε δεδομένα μέσα από μεγάλα αρχεία καταγραφής, τότε το klogg(klogg) είναι απλώς το εργαλείο για εσάς. Ένα πιρούνι ενημέρωσης του δημοφιλούς glogg , αυτή η εφαρμογή σας επιτρέπει να εκτελείτε πολύπλοκες λειτουργίες αναζήτησης μέσω τεράστιων αρχείων κειμένου με ευκολία. Δεδομένου ότι τα αρχεία καταγραφής που δημιουργούνται από υπολογιστή μπορεί συχνά να έχουν εκατομμύρια σειρές, το klogg έχει σχεδιαστεί για να λειτουργεί με τέτοια μεγέθη αρχείων χωρίς πρόβλημα.

Μέθοδος(Method) #2: Χωρισμός σε πολλά μέρη(Into Multiple Parts)

Το όλο πρόβλημα με την προσπάθεια ανοίγματος μεγάλων αρχείων CSV είναι ότι είναι πολύ μεγάλα. Τι θα γινόταν όμως αν τα χωρίζατε σε πολλά μικρότερα αρχεία;

Αυτή είναι μια δημοφιλής λύση, καθώς γενικά δεν χρειάζεται να μάθετε τη διεπαφή ενός νέου επεξεργαστή κειμένου. Αντίθετα, μπορείτε να χρησιμοποιήσετε έναν από τους πολλούς διαχωριστές CSV που είναι διαθέσιμοι στο διαδίκτυο(one of the many CSV splitters available online) για να χωρίσετε το μεγάλο αρχείο σε έναν αριθμό αρχείων που ανοίγουν εύκολα. Στη συνέχεια, καθένα από αυτά τα αρχεία μπορεί να προσπελαστεί κανονικά.

Ωστόσο, αυτός δεν είναι ο καλύτερος τρόπος για να το κάνετε αυτό. Ο διαχωρισμός ενός μεγάλου αρχείου μπορεί συχνά να οδηγήσει σε περίεργα τυπογραφικά λάθη ή αρχεία που δεν έχουν ρυθμιστεί σωστά. Επιπλέον, το άνοιγμα κάθε κομματιού ξεχωριστά σας εμποδίζει να φιλτράρετε όλα τα δεδομένα ταυτόχρονα.

Μέθοδος #3: Εισαγωγή σε μια βάση δεδομένων

Τα αρχεία κειμένου και .csv που εκτείνονται σε πολλά gigabyte είναι γενικά μεγάλα σύνολα δεδομένων. Γιατί λοιπόν να μην τα εισάγετε απλώς σε μια βάση δεδομένων;

Η SQL(SQL) είναι η πιο κοινή γλώσσα σήμανσης βάσης δεδομένων που χρησιμοποιείται σήμερα. Υπάρχουν πολλές εκδόσεις της SQL(many versions of SQL) σε χρήση, αλλά η πιο εύκολη είναι πιθανώς η MySQL . Και όπως θα το είχε η τύχη, είναι δυνατή η μετατροπή ενός αρχείου CSV σε πίνακα MySQL(convert a CSV file into a MySQL table) .

Αυτή δεν είναι σε καμία περίπτωση η ευκολότερη μέθοδος αντιμετώπισης μεγάλων αρχείων CSV , επομένως τη συνιστούμε μόνο εάν θέλετε να αντιμετωπίζετε μεγάλα σύνολα δεδομένων σε τακτική βάση. Εάν η MySQL ακούγεται πολύ σκληρή, μπορείτε πάντα να εισάγετε τα αρχεία σας .csv στο MS Access .

Μέθοδος(Method) #4: Ανάλυση με βιβλιοθήκες Python

Όταν εργάζεστε με ένα αρχείο .csv με εκατομμύρια σειρές δεδομένων, προφανώς δεν θα είστε σε θέση να το κατανοήσετε με μη αυτόματο τρόπο. Πιθανότατα θέλετε να φιλτράρετε τα δεδομένα και να εκτελέσετε συγκεκριμένα ερωτήματα για να κατανοήσετε τις τάσεις.

Γιατί λοιπόν να μην γράψετε κώδικα Python(write Python code) για να το κάνετε αυτό;

Για άλλη μια φορά, αυτή δεν είναι η πιο φιλική προς τον χρήστη μέθοδο. Αν και η Python δεν είναι η πιο δύσκολη γλώσσα προγραμματισμού για εκμάθηση(Python isn’t the hardest programming language to learn) , είναι η κωδικοποίηση, επομένως μπορεί να μην είναι η καλύτερη προσέγγιση για εσάς. Ωστόσο, εάν πρέπει να αναλύετε τα πραγματικά μεγάλα αρχεία CSV σε καθημερινή βάση, ίσως θελήσετε να αυτοματοποιήσετε την εργασία με κάποιο κώδικα Python(automate the task with some Python code) .

Μέθοδος #5: Με εργαλεία Premium

Τα προγράμματα επεξεργασίας κειμένου που είδαμε στην πρώτη μέθοδο δεν ήταν ειδικά εργαλεία που προορίζονταν για επεξεργασία CSV . Ήταν εργαλεία γενικής χρήσης που μπορούσαν να χρησιμοποιηθούν για να δουλέψουν και με μεγάλα αρχεία .csv.

Τι γίνεται όμως με τις εξειδικευμένες εφαρμογές; Δεν υπάρχουν εφαρμογές εκεί έξω που έχουν δημιουργηθεί για να λύσουν αυτό το πρόβλημα;

Υπάρχουν, στην πραγματικότητα. Ο CSV Explorer(CSV Explorer) , για παράδειγμα, βασίζεται στην ίδια τη διαδικασία που περιγράψαμε στις δύο τελευταίες μεθόδους ( βάση δεδομένων SQL και κώδικας Python ) για να δημιουργήσει μια εφαρμογή ικανή να προβάλλει και να επεξεργάζεται αρχεία CSV οποιουδήποτε μεγέθους. Μπορείτε να κάνετε ό,τι περιμένετε από ένα εργαλείο υπολογιστικών φύλλων, όπως να δημιουργήσετε γραφήματα ή να φιλτράρετε τα δεδομένα στην Εξερεύνηση CSV(CSV Explorer) .

Μια άλλη επιλογή είναι το UltraEdit . Σε αντίθεση με το προηγούμενο εργαλείο, αυτό δεν προορίζεται μόνο για αρχεία .csv αλλά για κάθε τύπο αρχείου κειμένου. Μπορεί εύκολα να χειριστεί αρχεία κειμένου και CSV που κυμαίνονται σε λίγα gigabyte, με μια διεπαφή παρόμοια με πολλούς από τους δωρεάν επεξεργαστές που συζητήσαμε νωρίτερα. 

Το μόνο μειονέκτημα αυτών των εργαλείων είναι ότι είναι εφαρμογές premium, που απαιτούν να λάβετε άδεια επί πληρωμή για να μπορείτε να τα χρησιμοποιήσετε. Μπορείτε πάντα να δοκιμάσετε τις δωρεάν δοκιμαστικές εκδόσεις τους για να ελέγξετε τις δυνατότητές τους ή εάν χρησιμοποιείτε μόνο μία φορά.

Ποιος είναι ο καλύτερος τρόπος για να ανοίξετε μεγάλα αρχεία κειμένου(Large Text) και CSV(CSV Files) ;

Σε αυτήν την εποχή των Μεγάλων Δεδομένων(Big Data) , δεν είναι ασυνήθιστο να αντιμετωπίζετε αρχεία κειμένου που εκτείνονται σε gigabyte, τα οποία μπορεί να είναι δύσκολο να προβληθούν ακόμη και με ενσωματωμένα εργαλεία όπως το Σημειωματάριο(Notepad) ή το MS Excel(MS Excel) . Για να μπορέσετε να ανοίξετε τόσο μεγάλα αρχεία CSV , πρέπει να κάνετε λήψη και να χρησιμοποιήσετε μια εφαρμογή τρίτου κατασκευαστή.

Εάν το μόνο που θέλετε είναι να προβάλετε τέτοια αρχεία, τότε το Large Text File Viewer είναι η καλύτερη επιλογή για εσάς. Για να τα επεξεργαστείτε πραγματικά, μπορείτε να δοκιμάσετε ένα πρόγραμμα επεξεργασίας κειμένου πλούσιου σε δυνατότητες όπως το Emacs ή να χρησιμοποιήσετε ένα εργαλείο premium όπως το CSV Explorer .

Τεχνικές όπως ο διαχωρισμός του αρχείου CSV ή η εισαγωγή του σε μια βάση δεδομένων περιλαμβάνουν πάρα πολλά βήματα. Καλύτερα να λάβετε μια επί πληρωμή άδεια χρήσης ενός αποκλειστικού εργαλείου premium, εάν εργάζεστε πολύ με τεράστια αρχεία κειμένου.



About the author

Είμαι προγραμματιστής ιστοσελίδων με πάνω από 10 χρόνια εμπειρία. Ειδικεύομαι στην ανάπτυξη του Chrome OS και έχω εργαστεί σε ένα ευρύ φάσμα έργων από μικρές νεοφυείς επιχειρήσεις έως εταιρείες του Fortune 500. Είμαι επίσης ειδικός στους λογαριασμούς χρηστών και την οικογενειακή ασφάλεια και έχω αναπτύξει αρκετές επιτυχημένες εφαρμογές Android.



Related posts