Πώς να εξαγάγετε πίνακες από έγγραφα PDF

Αυτό το άρθρο θα σας δείξει πώς να εξαγάγετε πίνακες από έγγραφα PDF(extract tables from PDF documents) . Μπορεί να έχετε πολλά αρχεία PDF που περιέχουν πολλούς πίνακες που θέλετε να χρησιμοποιήσετε ξεχωριστά. Η αντιγραφή(Copying) και επικόλληση αυτών των πινάκων δεν είναι καλή επιλογή, καθώς μπορεί να μην δώσει την αναμενόμενη έξοδο, επομένως χρειάζεστε κάποιες άλλες απλές επιλογές που μπορούν να εξαγάγουν πίνακες από ένα αρχείο PDF και να αποθηκεύουν αυτούς τους πίνακες ως ξεχωριστά αρχεία.

Τα περισσότερα από αυτά τα εργαλεία εξαγωγής πίνακα PDF(PDF table extractor tools) δεν μπορούν να βοηθήσουν εάν ο πίνακας PDF σαρωθεί. (PDF)Σε μια τέτοια περίπτωση, θα πρέπει πρώτα να κάνετε αναζήτηση στο PDF(make the PDF searchable)  και μετά να δοκιμάσετε αυτές τις επιλογές.

Εξαγωγή πινάκων από έγγραφα PDF

Σε αυτήν την ανάρτηση, προσθέσαμε 2 δωρεάν διαδικτυακές υπηρεσίες και 3 δωρεάν λογισμικό για την εξαγωγή πινάκων από ένα αρχείο PDF :

  1. PDF σε XLS
  2. PDFtoExcel.com
  3. Tabula
  4. ByteScout PDF Multitool
  5. Sejda PDF Desktop.

1] PDF σε XLS

Υπηρεσία PDF σε XLS

Το PDF(PDF) σε XLS είναι μια από τις καλύτερες επιλογές για εξαγωγή πινάκων από PDF . Διαθέτει δύο χαρακτηριστικά που το κάνουν εύχρηστο. Μπορείτε να ανακτήσετε πίνακες από 20 έγγραφα PDF(20 PDF) μαζί. Επίσης, η εξαγωγή πίνακα PDF είναι αυτόματη. Δημιουργεί την έξοδο ως αρχείο XLSX . Εάν ένα PDF έχει πολλούς πίνακες, τότε κάθε πίνακας αποθηκεύεται χωριστά σε διαφορετικά φύλλα εξόδου αρχείου XLSX .

Ανοίξτε την αρχική σελίδα(Open the homepage) αυτής της υπηρεσίας. Μετά από αυτό, σύρετε και αποθέστε αρχεία PDF ή χρησιμοποιήστε το κουμπί UPLOAD FILES . Κάθε μεταφορτωμένο PDF μετατρέπεται αυτόματα σε αρχείο μορφής XLSX. Όταν τα αρχεία εξόδου είναι έτοιμα, μπορείτε να τα κατεβάσετε ένα προς ένα ή να κάνετε λήψη ενός αρχείου ZIP που θα περιέχει όλα τα αρχεία εξόδου.

2] PDFtoExcel.com

Εξαγωγή πινάκων από έγγραφα PDF

Η υπηρεσία PDFtoExcel.com(PDFtoExcel.com) μπορεί να εξάγει πίνακες από ένα PDF ταυτόχρονα, αλλά υποστηρίζει πολλές πλατφόρμες για τη μεταφόρτωση PDF . Υποστηρίζει πλατφόρμες OneDrive , desktop , Google Drive και Dropbox για τη μεταφόρτωση ενός PDF . Επίσης, η διαδικασία μετατροπής είναι αυτόματη.

Αυτή η αρχική σελίδα της υπηρεσίας είναι εδώ(here) . Εκεί, επιλέξτε μια επιλογή μεταφόρτωσης για να προσθέσετε PDF . Μετά από αυτό, ανεβάζει αυτόματα και μετατρέπει αρχείο PDF(PDF) σε Excel ( XLSX ). Όταν η έξοδος είναι έτοιμη, θα λάβετε τον σύνδεσμο λήψης για να αποθηκεύσετε το αρχείο εξόδου που περιέχει τους πίνακες PDF .

Σημείωση:(Note: ) Αν και αυτή η υπηρεσία αναφέρει ότι μπορεί επίσης να εξάγει πίνακες από σαρωμένα αρχεία PDF , δεν μου λειτούργησε. Μπορείτε ακόμα να το δοκιμάσετε για σαρωμένο PDF .

3] Tabula

Το λογισμικό εξαγωγής PDF Tabula

Το Tabula(Tabula) είναι ένα ισχυρό λογισμικό που μπορεί να ανιχνεύσει αυτόματα πίνακες που υπάρχουν σε ένα PDF και στη συνέχεια σας επιτρέπει να αποθηκεύσετε αυτούς τους πίνακες ως αρχείο TSV , JSON ή CSV . Μπορείτε να επιλέξετε να αποθηκεύσετε ξεχωριστά αρχεία CSV για κάθε πίνακα PDF ή να αποθηκεύσετε όλους τους πίνακες σε ένα μόνο αρχείο CSV(CSV) .

Για να κατεβάσετε αυτό το πρόγραμμα εξαγωγής πίνακα PDF ανοιχτού κώδικα , (open-source)κάντε κλικ εδώ(click here) . Απαιτεί επίσης Java(requires Java) για να εκτελεστεί και να το χρησιμοποιήσει με επιτυχία.

Εξαγάγετε το αρχείο ZIP που κατεβάσατε και εκτελέστε το αρχείο tabula.exe . Θα ανοίξει μια σελίδα στο προεπιλεγμένο πρόγραμμα περιήγησής σας. Εάν η σελίδα δεν ανοίξει, προσθέστε το http://localhost:8080 στο πρόγραμμα περιήγησής σας και πατήστε Enter .

Τώρα θα δείτε τη διεπαφή του όπου μπορείτε να χρησιμοποιήσετε την επιλογή Αναζήτηση(Browse) για να προσθέσετε ένα PDF . Μετά από αυτό, πατήστε το κουμπί Εισαγωγή(Import) . Όταν προστεθεί το PDF , μπορείτε να δείτε σελίδες PDF στη διεπαφή του.

Χρησιμοποιήστε το κουμπί Αυτόματος εντοπισμός πινάκων(Autodetect Tables) και θα επισημάνει αυτόματα όλους τους πίνακες που υπάρχουν σε αυτό το PDF . Μπορείτε επίσης να επισημάνετε χειροκίνητα έναν πίνακα επιλέγοντας έναν συγκεκριμένο πίνακα. Εάν θέλετε, μπορείτε επίσης να αφαιρέσετε επιλεγμένους πίνακες(remove selected tables) της επιλογής σας.

Αυτό θα σας βοηθήσει να αποθηκεύσετε μόνο τους πίνακες που θέλετε. Όταν επισημανθούν οι πίνακες PDF , κάντε κλικ στο κουμπί (PDF)Προεπισκόπηση και εξαγωγή εξαγόμενων δεδομένων(Preview & Export Extracted Data) .

Τέλος, χρησιμοποιήστε το αναπτυσσόμενο μενού που είναι διαθέσιμο στο επάνω μέρος για να επιλέξετε μια μορφή εξόδου και πατήστε το κουμπί Εξαγωγή(Export) . Αυτό θα αποθηκεύσει πίνακες PDF στο αρχείο μορφής εξόδου που έχετε επιλέξει.

4] ByteScout PDF Multitool

ByteScout PDF Multitool- προσθέστε pdf και ανιχνεύστε πίνακες

Όπως υποδηλώνει το όνομα, αυτό το λογισμικό συνοδεύεται από πολλά εργαλεία. Διαθέτει εργαλεία όπως μετατροπή PDF σε πολυσέλιδο TIFF(convert PDF to multipage TIFF) , περιστροφή εγγράφου PDF(rotate PDF document) , μη αναζήτηση του PDF(make PDF unsearchable) , βελτιστοποίηση του PDF(optimize PDF) , προσθήκη εικόνας σε PDF(add an image to PDF) και πολλά άλλα. Υπάρχει επίσης η δυνατότητα ανίχνευσης πίνακα PDF , η οποία είναι αρκετά φοβερή. (PDF)Το πλεονέκτημα αυτού του εργαλείου είναι ότι μπορείτε επίσης να εξαγάγετε πίνακες από σαρωμένο PDF(extract tables from scanned PDF) . Μπορείτε να εντοπίσετε πίνακες σε πολλές σελίδες και στη συνέχεια να εξαγάγετε αυτούς τους πίνακες ως αρχείο μορφής CSV , XLS , XML , TXT ή JSON . Πριν από την εξαγωγή, σας επιτρέπει επίσης να ορίσετε ένα εύρος σελίδων(page range)για εξαγωγή πινάκων μόνο από καθορισμένες σελίδες.

Μπορείτε να πάρετε αυτό το λογισμικό εδώ(here) . Είναι δωρεάν μόνο για μη εμπορική χρήση(free for non-commercial use) . Μετά την εγκατάσταση, εκτελέστε αυτό το λογισμικό και χρησιμοποιήστε την επιλογή Open Document για να προσθέσετε ένα PDF . Μετά από αυτό, κάντε κλικ στο εργαλείο Ανίχνευση πινάκων(Detect tables) όπως επισημαίνεται στην παραπάνω εικόνα. Αυτό το εργαλείο υπάρχει στην κατηγορία Εξαγωγή δεδομένων(Data Extraction) .

Θα ανοίξει ένα πλαίσιο όπου μπορείτε να ορίσετε συνθήκες για τον εντοπισμό πινάκων. Για παράδειγμα, μπορείτε να ορίσετε έναν ελάχιστο αριθμό στηλών, σειρών, ελάχιστες αλλαγές γραμμής μεταξύ πινάκων, να ορίσετε τη λειτουργία ανίχνευσης πίνακα σε πίνακα με περίγραμμα ή χωρίς περιθώρια κ.λπ. Χρησιμοποιήστε επιλογές ή διατηρήστε τις προεπιλεγμένες ρυθμίσεις.

Μετά από αυτό, πατήστε το κουμπί Ανίχνευση επόμενου πίνακα(Detect next table) σε αυτό το πλαίσιο. Θα αναγνωρίσει και θα επιλέξει έναν πίνακα στην τρέχουσα σελίδα. Με αυτόν τον τρόπο, μπορείτε να μετακινηθείτε σε άλλη σελίδα και να εντοπίσετε περισσότερους πίνακες.

εντοπισμός πινάκων και αποθήκευση πινάκων pdf με επιλεγμένη έξοδο

Όταν τελειώσετε, χρησιμοποιήστε το κουμπί Συνέχεια στην εξαγωγή(Proceed to extraction) και επιλέξτε τη μορφή εξόδου. Τέλος, μπορείτε να χρησιμοποιήσετε επιλογές για να αποθηκεύσετε τους πίνακες από την τρέχουσα σελίδα ή να ορίσετε μια περιοχή σελίδων και να αποθηκεύσετε την έξοδο.

Το εργαλείο δίνει μια ικανοποιητική απόδοση. Ωστόσο, μερικές φορές, ενδέχεται να ανιχνεύσει άλλο περιεχόμενο σε PDF και να μην είναι σε θέση να εξαγάγει πίνακες από πολλές σελίδες. Σε αυτήν την περίπτωση, θα πρέπει να το χρησιμοποιήσετε για να ανακτήσετε και να αποθηκεύσετε πίνακες έναν προς έναν.

5] Sejda PDF Desktop

Sejda PDF Desktop με μετατροπέα pdf σε excel

Το Sejda PDF Desktop(Sejda PDF Desktop) είναι επίσης ένα λογισμικό πολλαπλών χρήσεων. Μπορεί να βελτιστοποιήσει ή να συμπιέσει το PDF(compress PDF) , να προσθέσει υδατογράφημα σε PDF, να αφαιρέσει περιορισμούς από το PDF(remove restrictions from PDF) , να επεξεργαστεί έγγραφο PDF κ.λπ. Ωστόσο, το δωρεάν σχέδιό του έχει περιορισμούς. Στο δωρεάν πρόγραμμα, μπορούν να γίνουν μόνο 3 εργασίες την ημέρα. Επίσης, το όριο μεγέθους PDF είναι (PDF)50 MB ή 10 σελίδες(10 pages) .

Μπορείτε να χρησιμοποιήσετε το εργαλείο μετατροπής PDF σε Excel(PDF to Excel) για να εξαγάγετε πίνακες PDF . Εντοπίζει αυτόματα τους πίνακες σε σελίδες PDF και σας επιτρέπει να αποθηκεύσετε αυτούς τους πίνακες ως XLSX ή CSV .

Ο σύνδεσμος λήψης του είναι εδώ(here) . Μετά την εγκατάσταση, χρησιμοποιήστε το εργαλείο PDF σε Excel από την κύρια διεπαφή του. Αφού επιλέξετε αυτό το εργαλείο, χρησιμοποιήστε το κουμπί Επιλογή αρχείων PDF . (Choose PDF files)Μόνο ένα PDF μπορεί να προστεθεί στο δωρεάν πρόγραμμα.

Όταν προστεθεί το PDF , θα παρέχει τα κουμπιά Μετατροπή PDF σε CSV(Convert PDF to CSV) και Μετατροπή PDF σε Excel . (Convert PDF to Excel)Χρησιμοποιήστε ένα κουμπί και, στη συνέχεια, μπορείτε να αποθηκεύσετε την έξοδο στην επιθυμητή θέση στον υπολογιστή σας.

μετατροπή πίνακα pdf σε excel ή csv

Το εργαλείο ανίχνευσης πίνακα PDF είναι καλό. (PDF)Δεν χρειάζεται να ανιχνεύσετε με μη αυτόματο τρόπο τους πίνακες. Ωστόσο, μερικές φορές μπορεί να περιλαμβάνει άλλο περιεχόμενο κειμένου ως πίνακα PDF και να το αποθηκεύει στην έξοδο. Αλλά τα συνολικά αποτελέσματα είναι καλά.

Αυτό είναι όλο.

Αυτά είναι μερικά καλά εργαλεία για την εξαγωγή πινάκων από PDF . Το λογισμικό Tabula(Tabula) είναι πιο αποτελεσματικό από άλλα εργαλεία. Ωστόσο, μπορείτε να δοκιμάσετε όλα τα εργαλεία και να ελέγξετε ποια βοηθάει.

Παρόμοια γράφει:(Similar reads:)



About the author

Είμαι πτυχιούχος μηχανικός υπολογιστών από το Πανεπιστήμιο της Γιούτα με πάνω από 10 χρόνια εμπειρίας στην ανάπτυξη λογισμικού και την ανάπτυξη Windows. Έχω εμπειρία στην εργασία με έγγραφα PDF και Office, καθώς και στην κατασκευή gadget χρησιμοποιώντας πλατφόρμες iOS και Android.



Related posts