Εξαγωγή κειμένου από αρχεία PDF και εικόνας

Έχετε ένα έγγραφο PDF από το οποίο θέλετε να εξαγάγετε όλο το κείμενο; Τι γίνεται με τα αρχεία εικόνας ενός σαρωμένου εγγράφου που θέλετε να μετατρέψετε σε επεξεργάσιμο κείμενο; Αυτά είναι μερικά από τα πιο κοινά ζητήματα που έχω δει στο χώρο εργασίας όταν εργάζομαι με αρχεία.

Σε αυτό το άρθρο, θα μιλήσω για πολλούς διαφορετικούς τρόπους με τους οποίους μπορείτε να προσπαθήσετε να εξαγάγετε κείμενο από ένα PDF ή από μια εικόνα. Τα αποτελέσματα εξαγωγής σας θα διαφέρουν ανάλογα με τον τύπο και την ποιότητα του κειμένου στο PDF ή στην εικόνα. Επίσης, τα αποτελέσματά σας θα διαφέρουν ανάλογα με το εργαλείο που χρησιμοποιείτε, επομένως είναι καλύτερο να δοκιμάσετε όσο το δυνατόν περισσότερες από τις παρακάτω επιλογές για να έχετε τα καλύτερα αποτελέσματα.

Εξαγωγή κειμένου από εικόνα ή PDF

Ο απλούστερος και πιο γρήγορος τρόπος για να ξεκινήσετε είναι να δοκιμάσετε μια ηλεκτρονική υπηρεσία εξαγωγής κειμένου PDF . Αυτά είναι συνήθως δωρεάν και μπορούν να σας δώσουν ακριβώς αυτό που ψάχνετε χωρίς να χρειάζεται να εγκαταστήσετε τίποτα στον υπολογιστή σας. Εδώ είναι δύο που έχω χρησιμοποιήσει με πολύ καλά έως εξαιρετικά αποτελέσματα:

Εξαγωγή PDF

απόσπασμα pdf

Το ExtractPDF(ExtractPDF) είναι ένα δωρεάν εργαλείο για να αφαιρέσετε εικόνες, κείμενο και γραμματοσειρές από ένα αρχείο PDF . Ο μόνος περιορισμός είναι ότι το μέγιστο μέγεθος για το αρχείο PDF είναι 10 MB. Αυτό είναι λίγο μικρό? Επομένως, εάν έχετε μεγαλύτερο αρχείο, δοκιμάστε μερικές από τις άλλες μεθόδους παρακάτω. Επιλέξτε το αρχείο σας και, στη συνέχεια, κάντε κλικ στο κουμπί Αποστολή αρχείου(Send file) . Τα αποτελέσματα είναι συνήθως πολύ γρήγορα και θα πρέπει να δείτε μια προεπισκόπηση του κειμένου όταν κάνετε κλικ στην καρτέλα Κείμενο .(Text)

λήψη κειμένου

Είναι επίσης ένα ωραίο πρόσθετο πλεονέκτημα ότι εξάγει εικόνες από το αρχείο PDF , μόνο σε περίπτωση που τις χρειαστείτε! Συνολικά, το διαδικτυακό εργαλείο λειτουργεί εξαιρετικά, αλλά έχω συναντήσει μερικά έγγραφα PDF που μου δίνουν αστεία αποτελέσματα. Το κείμενο εξάγεται μια χαρά, αλλά για κάποιο λόγο θα έχει μια αλλαγή γραμμής μετά από κάθε λέξη! Δεν είναι τεράστιο πρόβλημα για ένα σύντομο αρχείο PDF , αλλά σίγουρα ένα πρόβλημα για αρχεία με πολύ κείμενο. Αν σας συμβεί αυτό, δοκιμάστε το επόμενο εργαλείο.

Online OCR

Το ηλεκτρονικό OCR(Online OCR) συνήθως λειτουργούσε για έγγραφα που δεν μετατράπηκαν σωστά με το ExtractPDF(ExtractPDF) , επομένως είναι καλή ιδέα να δοκιμάσετε και τις δύο υπηρεσίες για να δείτε ποιες σας προσφέρουν καλύτερη απόδοση. Το διαδικτυακό OCR(Online OCR) έχει επίσης μερικές ωραιότερες λειτουργίες που μπορούν να αποδειχθούν χρήσιμες για οποιονδήποτε έχει ένα μεγάλο αρχείο PDF που χρειάζεται μόνο να μετατρέψει κείμενο σε λίγες σελίδες και όχι σε ολόκληρο το έγγραφο.

Το πρώτο πράγμα που θέλετε να κάνετε είναι να προχωρήσετε και να δημιουργήσετε έναν δωρεάν λογαριασμό. Είναι λίγο ενοχλητικό, αλλά αν δεν δημιουργήσετε τον δωρεάν λογαριασμό, θα μετατρέψει μόνο εν μέρει το PDF σας και όχι ολόκληρο το έγγραφο. Επίσης, αντί να μπορείτε να ανεβάσετε μόνο ένα έγγραφο 5 MB, μπορείτε να ανεβάσετε έως και 100 MB ανά αρχείο με έναν λογαριασμό.

online ocr

Πρώτα, επιλέξτε μια γλώσσα και, στη συνέχεια, επιλέξτε τον τύπο των μορφών εξόδου που θέλετε για το αρχείο που μετατράπηκε. Έχετε μερικές επιλογές και μπορείτε να επιλέξετε περισσότερες από μία αν θέλετε. Στην περιοχή Έγγραφο πολλών σελίδων(Multipage document) , μπορείτε να επιλέξετε Αριθμοί σελίδων(Page numbers) και, στη συνέχεια, να επιλέξετε μόνο τις σελίδες που θέλετε να μετατρέψετε. Στη συνέχεια επιλέγετε το αρχείο και κάνετε κλικ στο Convert !

online ocr docs

Μετά τη μετατροπή, θα μεταφερθείτε στην ενότητα Έγγραφα(Documents) (εάν είστε συνδεδεμένοι) όπου μπορείτε να δείτε πόσες διαθέσιμες δωρεάν σελίδες σας έχουν απομείνει και συνδέσμους για τη λήψη των αρχείων που έχετε μετατρέψει. Φαίνεται ότι έχετε μόνο 25 σελίδες δωρεάν την ημέρα, οπότε αν χρειάζεστε περισσότερες από αυτές, θα πρέπει είτε να περιμένετε λίγο είτε να αγοράσετε περισσότερες σελίδες.

Το διαδικτυακό OCR(Online OCR) έκανε εξαιρετική δουλειά στη μετατροπή των PDF μου , επειδή ήταν σε θέση να διατηρήσει την πραγματική διάταξη του κειμένου. Στη δοκιμή μου, πήρα ένα έγγραφο του Word που χρησιμοποιούσε κουκκίδες, διαφορετικά μεγέθη γραμματοσειράς κ.λπ. και το μετέτρεψα σε PDF . Στη συνέχεια χρησιμοποίησα το Online OCR για να το μετατρέψω ξανά σε μορφή Word και ήταν περίπου 95% ίδιο με το πρωτότυπο. Αυτό είναι αρκετά εντυπωσιακό για μένα.

Επιπλέον, εάν θέλετε να μετατρέψετε μια εικόνα σε κείμενο, τότε το Online OCR μπορεί να το κάνει εξίσου εύκολα με την εξαγωγή κειμένου από αρχεία PDF .

Δωρεάν Online OCR

Επειδή μιλούσαμε για εικόνα σε κείμενο OCR , επιτρέψτε μου να αναφέρω έναν άλλο καλό ιστότοπο που λειτουργεί πολύ καλά σε εικόνες. Το Free Online OCR(Free Online OCR) ήταν πολύ καλό και πολύ ακριβές κατά την εξαγωγή κειμένου από τις δοκιμαστικές μου εικόνες. Πήρα μερικές φωτογραφίες από το iPhone μου με σελίδες από βιβλία, φυλλάδια κ.λπ. και εξεπλάγην με το πόσο καλά μπόρεσε να μετατρέψει το κείμενο.

δωρεάν online ocr

Επιλέξτε το αρχείο σας και, στη συνέχεια, κάντε κλικ στο κουμπί Μεταφόρτωση(Upload) . Στην επόμενη οθόνη, υπάρχουν μερικές επιλογές και μια προεπισκόπηση της εικόνας. Μπορείτε να το περικόψετε εάν δεν θέλετε να κάνετε OCR ολόκληρο. Στη συνέχεια, απλώς κάντε κλικ στο κουμπί OCR και το κείμενο που μετατράπηκε θα εμφανιστεί κάτω από την προεπισκόπηση της εικόνας. Επίσης δεν έχει κανέναν περιορισμό, πράγμα πολύ ωραίο.

Εκτός από τις διαδικτυακές υπηρεσίες, υπάρχουν δύο δωρεάν μετατροπείς PDF που θέλω να αναφέρω σε περίπτωση που χρειάζεστε λογισμικό που εκτελείται τοπικά στον υπολογιστή σας για να πραγματοποιήσετε τις μετατροπές. Με τις διαδικτυακές υπηρεσίες, θα χρειάζεστε πάντα σύνδεση στο Διαδίκτυο(Internet) και αυτό μπορεί να μην είναι δυνατό για όλους. Ωστόσο, παρατήρησα ότι η ποιότητα των μετατροπών από τα δωρεάν προγράμματα ήταν σημαντικά χειρότερη από αυτή των ιστοσελίδων.

Εξαγωγή κειμένου A-PDF

Το A-PDF Text Extractor(A-PDF Text Extractor) είναι δωρεάν λογισμικό που κάνει αρκετά καλή δουλειά στην εξαγωγή κειμένου από αρχεία PDF . Μόλις το κατεβάσετε και το εγκαταστήσετε, κάντε κλικ στο κουμπί Άνοιγμα(Open) για να επιλέξετε το αρχείο PDF σας . Στη συνέχεια, κάντε κλικ στην Εξαγωγή(Extract) κειμένου για να ξεκινήσει η διαδικασία.

εξαγωγέας apdf

Θα σας ζητήσει μια τοποθεσία για να αποθηκεύσετε το αρχείο εξόδου κειμένου και στη συνέχεια θα ξεκινήσει η εξαγωγή. Μπορείτε επίσης να κάνετε κλικ στο κουμπί Επιλογή(Option) , το οποίο σας επιτρέπει να επιλέξετε μόνο συγκεκριμένες σελίδες προς εξαγωγή και τον τύπο εξαγωγής. Η δεύτερη επιλογή είναι ενδιαφέρουσα γιατί εξάγει το κείμενο σε διαφορετικές διατάξεις και αξίζει να δοκιμάσετε και τις τρεις για να δείτε ποιες σας δίνουν την καλύτερη απόδοση.

PDF2Text Pilot

Το PDF2Text Pilot(PDF2Text Pilot)  κάνει μια καλή δουλειά στην εξαγωγή κειμένου. Δεν έχει καμία επιλογή? απλά προσθέτετε αρχεία ή φακέλους, μετατρέπετε και ελπίζετε για το καλύτερο. Λειτουργούσε καλά σε ορισμένα PDF(PDFs) , αλλά για την πλειονότητά τους, υπήρχαν πολλά προβλήματα.

pdf2κείμενο

Απλώς κάντε κλικ στην Προσθήκη αρχείων(Add Files) και, στη συνέχεια, κάντε κλικ στην επιλογή Μετατροπή(Convert) . Μόλις ολοκληρωθεί η μετατροπή, κάντε κλικ στο Browse για να ανοίξετε το αρχείο. Τα χιλιόμετρα σας θα ποικίλλουν χρησιμοποιώντας αυτό το πρόγραμμα, οπότε μην περιμένετε πολλά.

Επίσης, αξίζει να αναφέρουμε ότι αν βρίσκεστε σε εταιρικό περιβάλλον ή μπορείτε να πάρετε στα χέρια σας ένα αντίγραφο του Adobe Acrobat από τη δουλειά, τότε μπορείτε πραγματικά να έχετε πολύ καλύτερα αποτελέσματα. Το Acrobat(Acrobat) προφανώς δεν είναι δωρεάν, αλλά έχει επιλογές για μετατροπή PDF σε μορφή Word , Excel και HTML . Κάνει επίσης την καλύτερη δουλειά για τη διατήρηση της δομής του αρχικού εγγράφου και τη μετατροπή περίπλοκου κειμένου.



About the author

Είμαι πτυχιούχος μηχανικός υπολογιστών από το Πανεπιστήμιο της Γιούτα με πάνω από 10 χρόνια εμπειρίας στην ανάπτυξη λογισμικού και την ανάπτυξη Windows. Έχω εμπειρία στην εργασία με έγγραφα PDF και Office, καθώς και στην κατασκευή gadget χρησιμοποιώντας πλατφόρμες iOS και Android.



Related posts