Χρησιμοποιήστε το Excel ως εργαλείο για την αντιγραφή δεδομένων από τον Ιστό

Η απόξεση Ιστού(Web) είναι η πράξη εξαγωγής δεδομένων, πληροφοριών ή εικόνων από έναν ιστότοπο χρησιμοποιώντας μια αυτοματοποιημένη μέθοδο. Σκεφτείτε(Think) το ως αντιγραφή και επικόλληση σε πλήρη αυτόματη λειτουργία.

Είτε γράφουμε είτε χρησιμοποιούμε μια εφαρμογή για να μεταβούμε στους ιστότοπους που θέλουμε και να κάνουμε ένα αντίγραφο των συγκεκριμένων πραγμάτων που θέλουμε από αυτούς τους ιστότοπους. Είναι πολύ πιο ακριβές από τη λήψη ενός ολόκληρου ιστότοπου(downloading an entire website) .

Όπως κάθε εργαλείο, το web scraping μπορεί να χρησιμοποιηθεί για καλό ή κακό. Μερικοί από τους καλύτερους λόγους για την απόξεση ιστοτόπων θα ήταν η κατάταξή τους σε μια μηχανή αναζήτησης με βάση το περιεχόμενό τους, οι αγορές σύγκρισης τιμών ή η παρακολούθηση πληροφοριών χρηματιστηρίου. Μπορείτε ακόμη και να το χρησιμοποιήσετε ως εργαλείο έρευνας.

Πώς μπορώ να σκάψω ιστότοπους με το Excel(Excel) ;

Είτε το πιστεύετε είτε όχι, το Excel(Excel) είχε τη δυνατότητα να εξάγει δεδομένα από ιστότοπους εδώ και πολύ καιρό, τουλάχιστον από το Excel 2003 . Απλώς η απόξεση ιστού είναι κάτι που οι περισσότεροι άνθρωποι δεν σκέφτονται, πόσο μάλλον να σκεφτούν να χρησιμοποιήσουν ένα πρόγραμμα υπολογιστικών φύλλων για να κάνουν τη δουλειά. Αλλά είναι εκπληκτικά εύκολο και ισχυρό. Ας μάθουμε πώς γίνεται δημιουργώντας μια συλλογή από συντομεύσεις πληκτρολογίου του Microsoft Office .

Βρείτε τους ιστότοπους που θέλετε να ξύσετε

Το πρώτο πράγμα που θα κάνουμε είναι να βρούμε τις συγκεκριμένες ιστοσελίδες από τις οποίες θέλουμε να λάβουμε πληροφορίες. Ας πάμε στην πηγή και ας κάνουμε αναζήτηση στη https://support.office.com/ . Θα χρησιμοποιήσουμε τον όρο αναζήτησης "συντομεύσεις που χρησιμοποιούνται συχνά". Μπορούμε να το κάνουμε πιο συγκεκριμένο χρησιμοποιώντας το όνομα της συγκεκριμένης εφαρμογής, όπως το Outlook , το Excel(Excel) , το Word και ούτω καθεξής. Ίσως είναι καλή ιδέα να προσθέσετε σελιδοδείκτη στη σελίδα αποτελεσμάτων, ώστε να μπορέσουμε να επιστρέψουμε εύκολα εκεί.

Κάντε κλικ(Click) στο αποτέλεσμα αναζήτησης, "Συντομεύσεις πληκτρολογίου στο Excel για Windows". Μόλις μεταβείτε σε αυτήν τη σελίδα, βρείτε τη λίστα με τις εκδόσεις του Excel και κάντε κλικ στο Νεότερες εκδόσεις(Newer Versions) . Τώρα εργαζόμαστε με τα πιο πρόσφατα και καλύτερα.

Θα μπορούσαμε να επιστρέψουμε στη σελίδα αποτελεσμάτων αναζήτησης και να ανοίξουμε τα αποτελέσματα για όλες τις άλλες εφαρμογές του Office στις δικές τους καρτέλες και να τις προσθέσουμε σελιδοδείκτες. Είναι μια καλή ιδέα, ακόμα και για αυτήν την άσκηση. Εδώ θα σταματούσαν οι περισσότεροι να συλλέγουν συντομεύσεις του Office , αλλά όχι εμείς. (Office)Θα τα βάλουμε στο Excel για να μπορούμε να κάνουμε ό,τι θέλουμε μαζί τους, όποτε θέλουμε.

Ανοίξτε το Excel και το Scrape

Ανοίξτε το Excel(Excel) και ξεκινήστε ένα νέο βιβλίο εργασίας. Αποθηκεύστε το βιβλίο εργασίας ως Συντομεύσεις του Office(Office Shortcuts) . Εάν διαθέτετε OneDrive, αποθηκεύστε το εκεί για να λειτουργήσει η λειτουργία Αυτόματης αποθήκευσης(AutoSave ) .

Μόλις αποθηκευτεί το βιβλίο εργασίας, κάντε κλικ στην καρτέλα Δεδομένα .(Data)

Στην κορδέλα της καρτέλας Δεδομένα , κάντε κλικ στο (Data)Από τον Ιστό(From Web) .

Θα ανοίξει το παράθυρο του οδηγού From Web . Εδώ τοποθετούμε τη διεύθυνση ιστού ή τη διεύθυνση URL(URL) του ιστότοπου από τον οποίο θέλουμε να αφαιρέσουμε δεδομένα. Μεταβείτε στο πρόγραμμα περιήγησής σας και αντιγράψτε(copy) τη διεύθυνση URL.

Επικολλήστε τη διεύθυνση URL στο πεδίο URL του οδηγού Από τον Ιστό . (From Web)Θα μπορούσαμε να επιλέξουμε να το χρησιμοποιήσουμε σε Basic ή Advanced mode. Η Προηγμένη(Advanced) λειτουργία μας δίνει πολλές περισσότερες επιλογές για τον τρόπο πρόσβασης στα δεδομένα από τον ιστότοπο. Για αυτήν την άσκηση, χρειαζόμαστε μόνο τη Βασική λειτουργία. Κάντε κλικ (Click) στο OK(OK) .

Το Excel(Excel) θα επιχειρήσει τώρα να συνδεθεί στον ιστότοπο. Αυτό μπορεί να διαρκέσει μερικά δευτερόλεπτα. Θα δούμε ένα παράθυρο προόδου, αν συμβεί.

Θα ανοίξει το παράθυρο του Navigator και θα δούμε μια λίστα πινάκων από τον ιστότοπο στα αριστερά. Όταν επιλέξουμε ένα, θα δούμε μια προεπισκόπηση πίνακα στα δεξιά. Ας επιλέξουμε τον πίνακα Συντομεύσεις που χρησιμοποιούνται συχνά .(Frequently used shortcuts )

Μπορούμε να κάνουμε κλικ στην καρτέλα Προβολή Ιστού(Web View) για να δούμε τον πραγματικό ιστότοπο, εάν χρειάζεται να ψάξουμε γύρω μας για τον πίνακα που θέλουμε. Όταν το βρούμε, μπορούμε να κάνουμε κλικ πάνω του και θα επιλεγεί για εισαγωγή.

Τώρα, κάνουμε κλικ στο κουμπί Φόρτωση(Load) στο κάτω μέρος αυτού του παραθύρου. Υπάρχουν και άλλες επιλογές που θα μπορούσαμε να διαλέξουμε, οι οποίες είναι πιο περίπλοκες και ξεπερνούν τα όρια του να κάνουμε το πρώτο μας ξύσιμο. Απλά να ξέρετε ότι είναι εκεί. Οι δυνατότητες απόξεσης ιστού του Excel είναι πολύ ισχυρές.

Ο πίνακας Ιστού θα φορτωθεί στο Excel μετά από λίγα δευτερόλεπτα. Θα δούμε τα δεδομένα στα αριστερά, όπου ο αριθμός 1 είναι στην παρακάτω εικόνα. Ο αριθμός 2 επισημαίνει το ερώτημα(Query) που χρησιμοποιήθηκε για τη λήψη των δεδομένων από τον ιστότοπο. Όταν έχουμε πολλά ερωτήματα σε ένα βιβλίο εργασίας, εδώ επιλέγουμε αυτό που πρέπει να χρησιμοποιήσουμε.

Σημειώστε(Notice) ότι τα δεδομένα έρχονται στο υπολογιστικό φύλλο ως πίνακας Excel . Είναι ήδη ρυθμισμένο για να μπορούμε να φιλτράρουμε ή να ταξινομούμε τα δεδομένα.

Μπορούμε να επαναλάβουμε αυτή τη διαδικασία για όλες τις άλλες ιστοσελίδες που έχουν τις συντομεύσεις του Office που θέλουμε για το Outlook , το Word(Word) , την Access , το PowerPoint(PowerPoint) και οποιαδήποτε άλλη εφαρμογή του Office(Office) .

Διατήρηση τρέχοντος αποκομμένου δεδομένων(Scraped Data Current) στο Excel

Ως μπόνους για εσάς, θα μάθουμε πώς να διατηρούμε φρέσκα τα αποκομμένα δεδομένα μας στο Excel . Αυτός είναι ένας πολύ καλός τρόπος για να δείξετε πόσο ισχυρό είναι το Excel(Excel) για την απόξεση δεδομένων. Ακόμη και με αυτό, κάνουμε μόνο την πιο βασική απόξεση που μπορεί να κάνει το Excel .

Για αυτό το παράδειγμα, ας χρησιμοποιήσουμε μια ιστοσελίδα πληροφοριών μετοχών όπως η https://www.cnbc.com/stocks/ .

Ανατρέξτε σε αυτό που κάναμε πριν και αντιγράψτε και επικολλήστε τη νέα διεύθυνση URL(URL) από τη γραμμή διευθύνσεων.

Θα μεταβείτε στο παράθυρο του Navigator και θα δείτε τους διαθέσιμους πίνακες. Ας επιλέξουμε τους κύριους δείκτες μετοχών των ΗΠΑ(Major U.S. Stock Indices) .

Μόλις αποξεσθούν τα δεδομένα, θα δούμε το παρακάτω υπολογιστικό φύλλο.

Στα δεξιά, βλέπουμε το ερώτημα για τους σημαντικούς δείκτες μετοχών των ΗΠΑ(Major U.S. Stock Indexes) . Επιλέξτε(Select) το ώστε να τονίζεται. Βεβαιωθείτε(Make) ότι βρισκόμαστε στην καρτέλα Εργαλεία πίνακα και στην περιοχή (Table Tools)Σχεδίαση(Design) . Στη συνέχεια, κάντε κλικ στο κάτω βέλος στην περιοχή Ανανέωση(Refresh) . Στη συνέχεια, κάντε κλικ στις Ιδιότητες σύνδεσης(Connection Properties) .

Στο παράθυρο Ιδιότητες ερωτήματος , στην καρτέλα (Query Properties )Χρήση(Usage) , μπορούμε να ελέγξουμε τον τρόπο ανανέωσης αυτών των πληροφοριών. Μπορούμε να ορίσουμε μια συγκεκριμένη χρονική περίοδο για ανανέωση ή για ανανέωση όταν ανοίγουμε το βιβλίο εργασίας την επόμενη φορά ή για ανανέωση στο παρασκήνιο ή οποιονδήποτε συνδυασμό αυτών. Αφού επιλέξουμε τι χρειαζόμαστε, κάνουμε κλικ στο OK για να κλείσουμε το παράθυρο και να συνεχίσουμε.

Αυτό είναι! Τώρα μπορείτε να παρακολουθείτε τις τιμές των μετοχών, τα αποτελέσματα των αθλημάτων ή οποιαδήποτε άλλα δεδομένα αλλάζουν συχνά από ένα υπολογιστικό φύλλο του Excel . Εάν είστε καλοί με τις εξισώσεις και τις συναρτήσεις του Excel(Excel equations and functions) , μπορείτε να κάνετε σχεδόν ό,τι θέλετε με τα δεδομένα.

Ίσως προσπαθήσετε να προσδιορίσετε τις τάσεις των μετοχών, να οργανώσετε μια πισίνα φαντασίας αθλητικών στη δουλειά ή ίσως απλώς να παρακολουθείτε τον καιρό. Ποιός ξέρει? Η φαντασία σας και τα δεδομένα που είναι διαθέσιμα στο Διαδίκτυο(Internet) , είναι τα μόνα όρια.



About the author

Ο Josh έχει πάνω από 10 χρόνια εμπειρίας στη βιομηχανία λογισμικού και ασύρματης σύνδεσης, ειδικά στους τομείς του προγραμματισμού και των κριτικών Android. Αυτή τη στιγμή είναι ανώτερος μηχανικός λογισμικού στη Microsoft, εργάζεται σε διάφορα προϊόντα ms office. Ο Τζος έχει έντονο ενδιαφέρον να βοηθά άλλους να μάθουν νέα εργαλεία λογισμικού και είναι πάντα πρόθυμος να μοιραστεί τις συμβουλές και τα κόλπα του με όσους ρωτούν.



Related posts