Κυριακή 1 Ιούλη 2007
ΡΙΖΟΣΠΑΣΤΗΣ
ΡΙΖΟΣΠΑΣΤΗΣ
Σελίδα 7
ΕΝΘΕΤΗ ΕΚΔΟΣΗ: "7 ΜΕΡΕΣ ΜΑΖΙ"
ΠΟΙΚΙΛΗΣ ΥΛΗΣ - ΕΠΙΣΤΗΜΗ
Πώς λειτουργεί η οπτική αναγνώριση χαρακτήρων

Η ηλεκτρονική σάρωση ενός παλιού βιβλίου ώστε να μπορέσει να γίνει δυνατή η επεξεργασία του για ανατύπωση, η χειρόγραφη καταχώριση λέξεων και αριθμών σε ένα υπολογιστή χειρός, η αυτόματη επεξεργασία πληροφοριών σε χάρτινες φόρμες, είναι λειτουργίες που απαιτούν τη μετάφραση από κάποιο λογισμικό, έντυπων ή χειρόγραφων συμβόλων στην ψηφιακή τους μορφή, που μπορεί να υποστεί επεξεργασία, να αποσταλεί με ηλεκτρονικό ταχυδρομείο, να αποθηκευτεί ή να τροφοδοτηθεί σε ένα μηχάνημα αυτόματης διαλογής ταχυδρομικών επιστολών.

Αυτό το λογισμικό (πρόγραμμα ηλεκτρονικού υπολογιστή) όταν πρωτοεμφανίστηκε πήρε το όνομα λογισμικό Οπτικής Αναγνώρισης Χαρακτήρων (OCR). Σήμερα ο όρος αυτός χρησιμοποιείται κυρίως για την αναγνώριση έντυπου κειμένου φτιαγμένου με χρήση τυπογραφικών στοιχείων. Η ανάλυση χειρογράφων ή έντυπων γραμμάτων με καμπύλες σαν τα χειρόγραφα, ονομάζεται Εξυπνη Αναγνώριση Χαρακτήρων. Ανεξάρτητα από τις ονομασίες και τις κατηγοριοποιήσεις, τα σχετικά προγράμματα στηρίζονται σε παραπλήσιους αλγορίθμους για τον προσδιορισμό των συμβόλων που απεικονίζουν οι καταγραφές με μελάνη σε χαρτί. Στη συνέχεια τα προγράμματα συγκρίνουν τα χαρακτηριστικά των γραμμών αυτών από μελάνη, με μαθηματικά μοντέλα, ώστε να προσδιορίσουν ποιο γράμμα ή αριθμό είναι το πιθανότερο να συμβολίζουν.

Ο προσδιορισμός των χειρόγραφων χαρακτήρων που γράφτηκαν με μια ειδική γραφίδα πάνω στην οθόνη αφής ενός υπολογιστή χειρός, είναι εύκολη υπόθεση, αντίθετα απ' ό,τι υποθέτει κανείς με τη λεγόμενη «κοινή λογική». Ο λόγος είναι ότι η ίδια η γραφίδα ή η οθόνη παρακολουθούν τις κινήσεις της γραφίδας. Η ανάλυση χαρακτήρων χειρόγραφου ή τυπογραφικού τύπου είναι πιο δύσκολη επειδή πρέπει να βγει η χρήσιμη πληροφορία από μια στατική εικόνα, να καθαριστεί από τις μουτζούρες και τα τυχαία σημάδια και μετά να εντοπιστούν τα γράμματα. Η αναγνώριση στατικού χειρόγραφου (δηλαδή σε χαρτί, όχι σε υπολογιστή χειρός) είναι η πιο δύσκολη απ' όλες και γι' αυτό γίνεται ακόμα μόνο σε ερευνητικό επίπεδο.

Πριν από χρόνια, οι τεχνικές αναγνώρισης χαρακτήρων βασίζονταν σε έναν ή δύο αλγορίθμους που σύγκριναν απλά μοτίβα. Το σημερινό λογισμικό αξιοποιεί πολλούς αλγορίθμους και μετά «ζυγίζει» τα αποτελέσματά τους για να βγάλει το τελικό συμπέρασμα. Αν πριν χρειάζονταν αρκετά λεπτά της ώρας για να γίνει επεξεργασία μιας σελίδας, αυτό σήμερα γίνεται μέσα σε μερικά δευτερόλεπτα.

Σε ερευνητικό στάδιο βρίσκεται η αναγνώριση χαρακτήρων για γλώσσες όπως τα αραβικά, τα ιαπωνικά και τα κινεζικά, καθώς τα σύμβολα που χρησιμοποιούν δεν αντιστοιχούν σε μεμονωμένα γράμματα αλλά σε ολόκληρες λέξεις.


Επιμέλεια:
Σταύρος ΞΕΝΙΚΟΥΔΑΚΗΣ
Πηγή: «Scientific American»


Κορυφή σελίδας
Ευρωεκλογές Ιούνη 2024
Μνημεία & Μουσεία Αγώνων του Λαού
Ο καθημερινός ΡΙΖΟΣΠΑΣΤΗΣ 1 ευρώ