Αναγνώριση ομιλίας: Εκ των υστέρων σκέψεις για τα δυνατά και τα αδύνατα σημεία της

Οφείλω να ομολογήσω ότι δεν είχα χρησιμοποιήσει κανένα είδος αναγνώρισης ομιλίας για πολύ καιρό όταν μου ζητήθηκε να κάνω τα σεμινάρια. Την τελευταία φορά που δοκίμασα την αναγνώριση ομιλίας, ήταν με το Dragon Dictate , το οποίο ήταν νέο όταν ήταν καινούργια και τα Windows 98. Πριν από πολύ καιρό στα χρόνια των υπολογιστών!

Χάρηκα που ασχολήθηκα με αυτό το θέμα γιατί με ενδιέφερε πολύ να δω πώς έχει βελτιωθεί η αναγνώριση ομιλίας. Και αγόρι μου, έχει βελτιωθεί! Ακόμη και μια βασική, ενσωματωμένη εφαρμογή όπως αυτή έκανε εκπληκτικά καλή δουλειά "ακριβώς από το κουτί". Σε αυτό το τελευταίο άρθρο σχετικά με την Αναγνώριση ομιλίας(Speech Recognition) , θα ήθελα να μιλήσω για το τι έμαθα ενώ εξοικειώθηκα ξανά με τα θαύματα της αναγνώρισης ομιλίας και πού θα πάω από εδώ.

Δεν είναι ακόμα έτοιμο για το Star Trek

Είμαι σίγουρος ότι πολλοί από εμάς παρακολουθήσαμε το πλήρωμα του Starship Enterprise να λέει "Computer!"και να πάρει άμεση απάντηση. Δεν έχουμε ακόμη υπολογιστές Starfleet , αλλά ξεκινώντας με τα Windows Vista(Windows Vista) και συνεχίζοντας στα Windows 7 , έχουμε υπολογιστές που θα μας ακούν και θα ανταποκρίνονται σε αυτά που τους λέμε—και θα μας απαντούν εάν "Τι ήταν αυτό;" ("What was that?")θεωρείται απάντηση.

Αναγνώρισης ομιλίας

Αντιμετώπισα προβλήματα όταν προσπάθησα για πρώτη φορά να χρησιμοποιήσω την Αναγνώριση ομιλίας(Speech Recognition) και η αντιμετώπιση προβλημάτων δεν ήταν ιδιαίτερα απλή. Τα αρχεία βοήθειας δεν είναι πάντα αρκετά χρήσιμα. Μπόρεσα να βρω τις απαντήσεις στον ιστότοπο της Microsoft και σε μια ποικιλία διαδικτυακών φόρουμ χωρίς πολλή δουλειά. Έτσι ανακάλυψα ότι είχα ξεχάσει ότι η webcam μου (κάθεται ακριβώς μπροστά μου πάνω από την οθόνη μου, και ευθυγραμμίζεται ακριβώς με τον τρόπο που μιλούσα) είχε επίσης ένα ενεργό μικρόφωνο και γινόταν μεγαλύτερη σύγχυση. Μόλις το διόρθωσα, ήταν αρκετά ομαλή από τότε.

Προσπάθησα ακόμη και να μιλήσω με μια ποικιλία διαφορετικών προφορών ( BBC βρετανικό(BBC British) και αμερικανικό(American) redneck, για παράδειγμα) και μπόρεσα να έχω αρκετά καλή αναγνώριση, επιτρέποντας διαφορές στην τυπική αμερικανική(American) προφορά. Φυσικά, λέγοντας "Friends, Romans, countrymen, lend me your ears!"ενώ άφησα τις καλύτερες εντυπώσεις από την Helen Mirren και τον Jeff Foxworthy(Jeff Foxworthy) με έκανε να γελάσω πάρα πολύ για να έχω απόλυτα ακριβή αποτελέσματα.

Αναγνώριση γλώσσας

Η Αναγνώριση ομιλίας(Speech Recognition) μπορεί να χρησιμοποιηθεί με διαφορετικές γλώσσες και σκέφτηκα ότι μπορεί να το δοκιμάσω με περιορισμένη, αμερικανική(American) προφορά, ισπανικά(Spanish) , γερμανικά(German) και γαλλικά(French) , αλλά δυστυχώς δεν μπορείτε να χρησιμοποιήσετε άλλες γλώσσες εκτός εάν το λειτουργικό σας σύστημα είναι επίσης σε αυτήν τη γλώσσα. Μπορείτε να αλλάξετε τη γλώσσα του λειτουργικού σας συστήματος εγκαθιστώντας ένα άλλο πακέτο γλώσσας από τη Microsoft(Microsoft) , αλλά μπορείτε να το κάνετε μόνο εάν χρησιμοποιείτε Windows 7 Ultimate ή Windows 7 Enterprise.

Αναγνώρισης ομιλίας

Η Αναγνώριση ομιλίας(Speech Recognition) είναι διαθέσιμη για Αγγλικά Η.Π.Α.(US English) , Αγγλικά ΗΒ(UK English) , Γαλλικά(French) , Ισπανικά(Spanish) , Γερμανικά(German) , Ιαπωνικά(Japanese) , Παραδοσιακά Κινεζικά(Traditional Chinese) και Απλοποιημένα Κινεζικά(Simplified Chinese) , και θα βρίσκεται στις εκδόσεις των Windows 7 αυτών των γλωσσών (όλες οι εκδόσεις). Λυπήθηκα που δεν μπόρεσα να το δοκιμάσω. Δεν έχω ιδέα τι θα συμβεί με τα Windows 8(Windows 8) , αλλά νομίζω ότι η δυνατότητα εγκατάστασης άλλων πακέτων γλωσσών θα ήταν μια καλή προσθήκη στα αντίστοιχα των Windows 8 των Windows 7 Professional και άνω.

Αυτό που λειτουργεί καλά

Όπως ανέφερα, το Speech Recognition(Speech Recognition) έχει σχεδιαστεί για να λειτουργεί καλύτερα με άλλο λογισμικό της Microsoft(Microsoft) . Όσο πειραματιζόμουν με προϊόντα της Microsoft(Microsoft) , είχα μεγάλη επιτυχία (αν και όπως θα περίμενε κανείς, η χρήση του Microsoft Office Excel ήταν περιορισμένη και περίπλοκη). Με άλλο λογισμικό χτυπήθηκε ή χάθηκε. Θα μπορούσα να χρησιμοποιήσω αρκετά καλά το πρόγραμμα περιήγησης Google Chrome (σίγουρα όχι τόσο καλά όσο ο (Google Chrome)Internet Explorer ) και το πρόγραμμα email Eudora , το οποίο είναι σχεδόν αντίκες λογισμικό μέχρι τώρα. Αξίζει να πειραματιστείτε με το δικό σας αγαπημένο λογισμικό για να δείτε τι μπορείτε να κάνετε. Η εντολή "εμφάνιση αριθμών" ήταν ιδιαίτερα χρήσιμη στην επιλογή στοιχείων και εντολών.

Διαπίστωσα επίσης ότι δεν χρειάστηκε πολύς χρόνος για να βελτιωθεί αισθητά η ακρίβεια της αναγνώρισης. Πέρασα δύο φορές τις προπονητικές ασκήσεις και μετά η αναγνώριση ήταν σχεδόν 100% σωστή. Μπόρεσα να μιλήσω λίγο πιο γρήγορα και έβαλα λιγότερες παύσεις για να συμβαδίσει το λογισμικό. Μου άρεσε πολύ να παρακολουθώ τη φωνή μου μεταφρασμένη σε λέξεις στην οθόνη. Οι πρώτες μου εμπειρίες με το λογισμικό αναγνώρισης ομιλίας δεν ήταν τόσο ευχάριστες.

Αναγνώρισης ομιλίας

Αυτό που δεν λειτουργεί καλά

Όπως ανέφερα, κάποιο λογισμικό είναι απλώς ασύμβατο με την Αναγνώριση ομιλίας(Speech Recognition) . Δεν μπορούσα καν να ανοίξω το Adobe Reader(Adobe Reader) ή την έκδοση Adobe AIR του TweetDeck . Διαπίστωσα ότι δεν μπορούσα να συνδεθώ στον Λογαριασμό μου Google με τον Internet Explorer για να δοκιμάσω τα Έγγραφα Google(Google Docs) — δεν υπήρχε τρόπος να μιλήσω ή να γράψω τον κωδικό πρόσβασής μου. Υποψιάζομαι ότι αυτό είναι ένα ζήτημα ασφάλειας, το οποίο δεν επιτρέπει στους κωδικούς πρόσβασης να εκφωνούνται δυνατά όπου κάποιος άλλος μπορεί να ακούσει, αλλά ήταν ενοχλητικό.

Μπορούσα να ανοίξω το iTunes(iTunes) και να επιλέξω ένα τραγούδι για αναπαραγωγή, αλλά στην πραγματικότητα δεν μπορούσα να το κάνω να παίξει. Μπορούσα να ανοίξω το Scrivener (ο επεξεργαστής κειμένου της επιλογής μου) αλλά το "Εμφάνιση αριθμών"("Show numbers") δεν επικάλυψε αριθμούς σε οτιδήποτε ήθελα να χρησιμοποιήσω. Δεν έκανα πραγματικά εκτεταμένους πειραματισμούς με το αγαπημένο μου λογισμικό—αυτά είναι μόνο μερικά που δοκίμασα. Θα άξιζε τον κόπο για όποιον θέλει να χρησιμοποιήσει την Αναγνώριση ομιλίας(Speech Recognition) να δοκιμάσει τα προγράμματα με τα οποία θέλει να τη χρησιμοποιήσει, για να βεβαιωθεί ότι θα είναι συμβατή.

Περισσότεροι σύνδεσμοι και πόροι

Αν δεν έχετε ήδη δει τα προηγούμενα άρθρα, μπορείτε να τα βρείτε εδώ:

Παραδόξως, είναι σχεδόν αδύνατο να βρείτε πληροφορίες σχετικά με την Αναγνώριση ομιλίας(Speech Recognition) στον ιστότοπο του Microsoft Answers χωρίς να κάνετε κλικ σε έναν σύνδεσμο από μια (Microsoft Answers)αναζήτηση Google(Google) ή Bing . Δεν μπόρεσα να λάβω καμία απολύτως απάντηση βάζοντας το "Speech Recognition" στο πλαίσιο αναζήτησης, παρόλο που υπάρχουν μερικές ερωτήσεις σχετικά με αυτό στα φόρουμ. Χρησιμοποιήστε αυτόν τον σύνδεσμο για να λάβετε βοήθεια για την Αναγνώριση ομιλίας(Speech Recognition) από την τοποθεσία web των Windows: Αποτελέσματα αναζήτησης Αναγνώρισης ομιλίας(Speech Recognition search results) .

Ακολουθεί ένα σύντομο άρθρο της Wikipedia που μιλά για την ιστορία της αναγνώρισης ομιλίας στη Microsoft : Αναγνώριση ομιλίας των Windows(Windows Speech Recognition) .

Ακολουθεί μια καταχώριση ιστολογίου που δίνει τις σκέψεις του συγγραφέα σχετικά με τη σύγκριση της Αναγνώρισης ομιλίας(Speech Recognition) με το Dragon Naturally Speaking : Dragon NaturallySpeaking έναντι της Αναγνώρισης φωνής των Windows 7(Dragon NaturallySpeaking Versus Windows 7 Voice Recognition) .

Τυλίγοντας το

Μου άρεσε πολύ να δουλεύω με την Αναγνώριση ομιλίας(Speech Recognition) και να θαυμάζω τις βελτιώσεις που έχουν γίνει με την πάροδο του χρόνου. Σίγουρα θα ήταν αρκετά καλό για περιστασιακή καθημερινή χρήση, ειδικά με τα προϊόντα της Microsoft(Microsoft) .

Θα συνεχίσω να χρησιμοποιώ την Αναγνώριση ομιλίας(Speech Recognition) ; Ναι, όταν μπορώ. Σε αυτό το σημείο δεν χρειάζομαι κάτι πιο εξελιγμένο. Άξιζε τον χρόνο που χρειάστηκε για να το εκπαιδεύσω και να εκπαιδεύσω τον εαυτό μου να το χρησιμοποιώ σωστά.



About the author

Είμαι μηχανικός λογισμικού με πάνω από 10 χρόνια εμπειρίας στον κλάδο του Xbox. Ειδικεύομαι στην ανάπτυξη παιχνιδιών και στις δοκιμές ασφαλείας. Είμαι επίσης έμπειρος κριτικός και εργάζομαι σε έργα για μερικά από τα μεγαλύτερα ονόματα του gaming, συμπεριλαμβανομένων των Ubisoft, Microsoft και Sony. Στον ελεύθερο χρόνο μου, μου αρέσει να παίζω βιντεοπαιχνίδια και να παρακολουθώ τηλεοπτικές εκπομπές.



Related posts