Πώς να εξαγάγετε επισημασμένο κείμενο από PDF ως αρχείο κειμένου;

Η επισήμανση κειμένου σε ένα έγγραφο PDF είναι χρήσιμη για να επισημάνετε τις σημαντικές περιοχές στις οποίες μπορείτε να αποκτήσετε πρόσβαση αργότερα γρήγορα. Μπορείτε να χρησιμοποιήσετε το Microsoft Edge για να επισημάνετε το PDF(Microsoft Edge to highlight PDF)  ή οποιοδήποτε άλλο λογισμικό που συνοδεύεται από δυνατότητα επισήμανσης PDF . Μερικές φορές, μπορεί επίσης να έχετε νιώσει την ανάγκη να έχετε μόνο το επισημασμένο κείμενο, ώστε να μπορείτε να έχετε τη σύνοψη του PDF που περιέχει όλο το βασικό κείμενο. Αν ψάχνετε για μερικούς τρόπους για να αποθηκεύσετε μόνο επισημασμένο κείμενο από ένα PDF ως αρχείο TXT , τότε αυτή η ανάρτηση μπορεί να είναι χρήσιμη.

Εξαγωγή επισημασμένου κειμένου από PDF

Υπάρχει κάποιο δωρεάν λογισμικό και μια υπηρεσία για την εξαγωγή επισημασμένου κειμένου από ένα αρχείο PDF και την αποθήκευση του ως αρχείο κειμένου:

  • Εξαγωγέας επισημάνσεων PDF
  • Foxit Reader
  • Sumnotes.net
  • DyAnnotationExtractor.

Ας ελέγξουμε ένα προς ένα αυτό το λογισμικό PDF Highlight Extractor .

1] PDF Highlight Extractor

Λογισμικό PDF Highlight Extractor

Το PDF Highlight Extractor(PDF Highlight Extractor) είναι μια από τις πιο εύκολες επιλογές για να εξαγάγετε το επισημασμένο κείμενο από ένα αρχείο PDF . Αυτό το πρόγραμμα εξαγωγής επισημάνσεων κειμένου PDF (PDF text highlight extractor)ανοιχτού κώδικα(open-source) έχει δύο χαρακτηριστικά που τραβούν την προσοχή. Μπορείτε να κάνετε προεπισκόπηση(preview highlighted text) του επισημασμένου κειμένου PDF στη διεπαφή λογισμικού.

Το δεύτερο χαρακτηριστικό είναι ότι μπορείτε να ορίσετε την αρχική ή την τελική σελίδα ή το εύρος σελίδων για εξαγωγή του κειμένου(set start or end page or page range to extract the text) . Έτσι, αντί να σαρώσετε ολόκληρο το PDF , μπορείτε να ορίσετε αριθμούς σελίδων για να λάβετε το επισημασμένο κείμενο.

Ένα άλλο καλό χαρακτηριστικό είναι ότι έχετε την επιλογή να αποθηκεύσετε κείμενο ως απλό κείμενο(save text as plain text) ή αρχείο Excel(Excel file) .

Στη διεπαφή του, προσθέστε το αρχείο PDF χρησιμοποιώντας τη δεδομένη επιλογή και, στη συνέχεια, πατήστε το κουμπί Εξαγωγή(Extract) . Καταργήστε την επιλογή Όλες οι σελίδες(All Pages) εάν θέλετε να ορίσετε το εύρος σελίδων ή να το αφήσετε ως έχει. Μόλις ληφθεί το κείμενο, μπορείτε να το κάνετε προεπισκόπηση. Τέλος, πατήστε το κουμπί Κείμενο(Text) ή Excel για να αποθηκεύσετε το επισημασμένο κείμενο.

Μπορείτε να κατεβάσετε αυτό το λογισμικό από εδώ(here) . Απαιτείται επίσης Java για τη χρήση αυτού του λογισμικού. (Java)Επομένως, εγκαταστήστε την Java(Java) (αν όχι ήδη) και εκτελέστε αυτό το λογισμικό για χρήση.

2] Foxit Reader

Εξαγωγή επισημασμένου κειμένου από PDF

Το Foxit Reader είναι ένα από τα καλύτερα δωρεάν προγράμματα ανάγνωσης PDF . Μπορείτε να ανοίξετε πολλά αρχεία PDF σε ξεχωριστές καρτέλες, να επισημάνετε το PDF , να προσθέσετε μια σημείωση, να εξάγετε σχόλια(export comments) , να προσθέσετε υπογραφές(add signatures) και πολλά άλλα. Μεταξύ της τεράστιας λίστας χαρακτηριστικών, υπάρχει επίσης η εξαγωγή επισημασμένου κειμένου από PDF . Το καλύτερο μέρος αυτής της δυνατότητας είναι ότι αποθηκεύει επίσης αριθμούς σελίδων μαζί με το εξαγόμενο κείμενο(saves page numbers along with the extracted text) .

Για να λάβετε επισημασμένο κείμενο από το PDF , ανοίξτε το αρχείο PDF στη διεπαφή του και μεταβείτε στην καρτέλα Σχόλιο . (Comment)Σε αυτήν την καρτέλα, κάντε κλικ στην επιλογή Εξαγωγή(Export) που είναι διαθέσιμη στην ενότητα Διαχείριση σχολίων(Manage Comments) . Θα δείτε την επιλογή Επισημασμένο κείμενο(Highlighted Text) . Χρησιμοποιήστε αυτήν την επιλογή και, στη συνέχεια, μπορείτε να αποθηκεύσετε όλο το επισημασμένο κείμενο ως αρχείο κειμένου.

Εδώ(Here) είναι ο σύνδεσμος λήψης αυτού του λογισμικού. Κατά την εγκατάσταση, θα πρέπει να επιλέξετε προσαρμοσμένη εγκατάσταση(custom installation) ώστε να περιλαμβάνει μόνο τα απαιτούμενα στοιχεία αυτού του λογισμικού.

3] Sumnotes.net

Sumnotes

Το Sumnotes.net(Sumnotes.net) είναι μια δωρεάν υπηρεσία που σας επιτρέπει να σχολιάζετε PDF καθώς και να εξαγάγετε το επισημασμένο κείμενο. Όλο το επισημασμένο κείμενο είναι ορατό ξεχωριστά στην αριστερή πλαϊνή γραμμή. Χρησιμοποιώντας αυτήν την πλαϊνή γραμμή, μπορείτε επίσης να αφαιρέσετε το επισημασμένο κείμενο που δεν χρειάζεστε(remove highlighted text that you don’t need) και στη συνέχεια να κάνετε λήψη του υπόλοιπου επισημασμένου κειμένου.

Πριν κάνετε λήψη του επισημασμένου κειμένου, μπορείτε επίσης να συμπεριλάβετε αριθμούς σελίδων και να εξαιρέσετε(exclude) το επισημασμένο κείμενο συγκεκριμένου χρώματος(highlighted text of specific color) .

Έχετε επίσης την επιλογή να αποθηκεύσετε επισημασμένο κείμενο από PDF ως αρχείο Excel(save highlighted text from PDF as Excel) ή Word . Άρα, τα χαρακτηριστικά είναι καλά. Μπορείτε να εγγραφείτε με ένα δωρεάν πρόγραμμα και στη συνέχεια να εξαγάγετε 50 επισημάνσεις(extract 50 highlights) ή σχολιασμούς ανά λήψη(per download) , κάτι που είναι αρκετό στις περισσότερες περιπτώσεις.

Εδώ(Here) είναι ο σύνδεσμος προς την αρχική του σελίδα. Για να εξαγάγετε επισημασμένο κείμενο από το PDF , προσθέστε ένα PDF από υπολογιστή ή Google Drive . Κατά τη μεταφόρτωση του PDF , οι σχολιασμοί και το επισημασμένο κείμενο είναι ορατά στην αριστερή πλευρά. Χρησιμοποιήστε την επιλογή Λήψη σχολιασμών(Download Annotations) και, στη συνέχεια, μπορείτε να αποθηκεύσετε το επισημασμένο κείμενο σε αρχείο μορφής TXT , XLSX ή DOC .

4] DyAnnotationExtractor

Λογισμικό γραμμής εντολών DyAnnotationExtractor

Το λογισμικό DyAnnotationExtractor(DyAnnotationExtractor) μπορεί να σας βοηθήσει να εξαγάγετε επισημασμένο κείμενο και σχόλια(comments) από ένα έγγραφο PDF. Είναι ένα λογισμικό γραμμής εντολών(command-line) , αλλά η χρήση του είναι πολύ απλή. Μια μόνο εντολή θα φέρει το κείμενο που επισημαίνεται στο αρχείο εισόδου PDF .

Μπορείτε να αποκτήσετε αυτό το λογισμικό χρησιμοποιώντας αυτόν τον σύνδεσμο(this link) . Κατεβάστε(Download) το αρχείο ZIP και, στη συνέχεια, εξαγάγετε το. Για να διευκολυνθεί η εκτέλεση της εντολής, θα πρέπει επίσης να τοποθετήσετε το PDF στον ίδιο φάκελο από τον οποίο εξαγάξατε αυτό το λογισμικό. Μετά από αυτό, ανοίξτε το παράθυρο της γραμμής εντολών σε αυτόν τον φάκελο. (Command Prompt)Μπορείτε να το κάνετε αυτό πληκτρολογώντας cmd στο πλαίσιο διεύθυνσης αυτού του φακέλου και μετά πατώντας το πλήκτρο Enter .

Όταν ανοίξει το παράθυρο CMD , προσθέστε το αρχείο (CMD)BAT αυτού του λογισμικού, την εντολή εισαγωγής συμπεριλαμβανομένης της διαδρομής εισόδου PDF , την εντολή εξόδου και το όνομα του αρχείου εξόδου μαζί με την επέκταση '.txt'. Η πλήρης εντολή θα είναι -

DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt

Εκτελέστε την εντολή. Περιμένετε(Wait) μερικά δευτερόλεπτα και το αρχείο απλού κειμένου θα είναι έτοιμο που περιέχει όλο το επισημασμένο κείμενο και τα σχόλια που έχουν ληφθεί από αυτό το PDF . Το αρχείο εξόδου αποθηκεύεται στον ίδιο φάκελο εισόδου.

Έτσι, αυτές είναι μερικές επιλογές που μπορείτε να χρησιμοποιήσετε για να εξαγάγετε επισημασμένο κείμενο από το PDF και στη συνέχεια να αποθηκεύσετε το αποτέλεσμα ως αρχείο κειμένου. Ελπίζω(Hope) να βοηθήσουν αυτά.



About the author

Είμαι πτυχιούχος μηχανικός υπολογιστών από το Πανεπιστήμιο της Γιούτα με πάνω από 10 χρόνια εμπειρίας στην ανάπτυξη λογισμικού και την ανάπτυξη Windows. Έχω εμπειρία στην εργασία με έγγραφα PDF και Office, καθώς και στην κατασκευή gadget χρησιμοποιώντας πλατφόρμες iOS και Android.



Related posts