Σκανάρισμα OCR

Οτιδήποτε αφορά το πρόγραμμα Μελωδός.
Ελένη Ντόβα
Δημοσιεύσεις: 7
Εγγραφή: 28 Νοέμ 2012, 23:23
Τοποθεσία: Βόλος

Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από Ελένη Ντόβα »

Κύριε Παπαδόπουλε
Κατ´ αρχάς να σας συγχαρώ για την ιδέα που είχατε να δημιουργήσετε το συγκεκριμένο Forum.
Πιστεύω ότι θα φανεί πολύ χρήσιμο σε όσους χρησιμοπούμε το Μελωδός.
Στο θέμα μου τώρα.
Τι θα πρέπει να προσέχω όταν σκανάρω σελίδες, προκειμένου όταν μας δώσετε το Μελωδός 2012, να μπορεί να τις διαβάσει;;
Ποιές εντολές θα πρέπει να προσέξω;;
Ευχαριστώ
"Μη νόμιζε απλήν είναι την της Ψαλτικής μεταχείρησιν, αλλά ποικίλην τε καί πολισχιδή".
Μανουήλ Χρυσάφης
Λαμπαδάριος της Αγίας Σοφίας επί της αλώσεως.
Άβαταρ μέλους
Σάββας Παπαδόπουλος
Site Admin
Δημοσιεύσεις: 110
Εγγραφή: 24 Νοέμ 2012, 22:42
Επικοινωνία:

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από Σάββας Παπαδόπουλος »

Σας ευχαριστώ.
Για την μεγιστοποίηση της αναγνώρισης καλό είναι το σκανάρισμα των μουσικών κειμένων να γίνεται με τα εξής χαρακτηριστικά
α) Τύπος Photo ή Φωτογραφία όχι κείμενο ή Document.
β) Πυκνότητα 300dpi αν τα γράμματα είναι μεγάλα ή 400dpi για κανονικά και μικρά γράμματα.
γ) Χρώμα B/W (Black & White) (άσπρο - μαύρο) κανονίζοντας το Threshold (κατώφλι διαχωρισμού άσπρου - μαύρου) αρχικά στο 128 και μεταβάλλοντας για την καλύτερη ποιότητα Ασπρόμαυρης εικόνας. Η ακριβής ρύθμιση του Threshold εξαρτάται από την ποιότητα του εγγράφου, τα χρώματα και το υπόβαθρο της σελίδας. Πρέπει το αποτέλεσμα οπτικά να είναι ικανοποιητικό.
Αν στο κείμενο υπάρχουν πολλά στίγματα λεκέδες και άλλα ξένα σώματα σκανάρετε σε χρώμα Color Smoothing (αν το υποστηρίζει το scanner) και κατόπιν μέσα στο OCR του Μελωδού μετατρέπεται σε Άσπρο - μαύρο.
Αν και το OCR του Μελωδού μπορεί να περιστρέψει την σελίδα , όμως καλό είναι το σκανάρισμα να γίνεται με την σελίδα κάθετα, όπως την διαβάζουμε.
Αν και το OCR του Μελωδού μπορεί να αφαιρεί σκόνη, κουκκίδες ή λεκέδες από το έγγραφο αυτόματα ή χειροκίνητα όμως αν αυτές είναι σε μεγάλο βαθμό ή αν υπάρχουν γραμμές ή μουτζούρες πάνω στο κείμενο, καλό είναι πρώτα να αφαιρεθούν με άλλο πρόγραμμα εξειδικευμένο για αυτή την δουλειά.
Φυσικά όλα αυτά προτείνονται για να πλησιάσει η αναγνώριση στο 100%. Αυτό σημαίνει ότι και με έγγραφα "δύσκολα" το OCR του Μελωδού δουλεύει ικανοποιητικά.
Ελένη Ντόβα
Δημοσιεύσεις: 7
Εγγραφή: 28 Νοέμ 2012, 23:23
Τοποθεσία: Βόλος

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από Ελένη Ντόβα »

Τα αρχεία που έχω ήδη, σε PDF, αν τα μετατρέψω σε εικόνα, θα μου τα διαβάσει, ή θα πρέπει να σκανάρω από την αρχή το πρωτότυπο σε εικόνα και μόνο;
"Μη νόμιζε απλήν είναι την της Ψαλτικής μεταχείρησιν, αλλά ποικίλην τε καί πολισχιδή".
Μανουήλ Χρυσάφης
Λαμπαδάριος της Αγίας Σοφίας επί της αλώσεως.
Άβαταρ μέλους
Σάββας Παπαδόπουλος
Site Admin
Δημοσιεύσεις: 110
Εγγραφή: 24 Νοέμ 2012, 22:42
Επικοινωνία:

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από Σάββας Παπαδόπουλος »

Το pdf το μετατρέπετε σε εικόνες και τροφοδοτείτε το OCR.
tsak77
Δημοσιεύσεις: 24
Εγγραφή: 05 Δεκ 2012, 12:56

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από tsak77 »

Για την εξαγωγή των εικόνων ενός pdf οδηγίες υπάρχουν εδώ: http://help.adobe.com/en_US/acrobat/X/p ... ee7.w.html
Για άλλες εκδόσεις του adobe acrobat περιηγηθήτε στις ανάλογες ιστοσελίδες, αναζητώντας το θέμα: Saving and exporting pdfs.
pane8486
Δημοσιεύσεις: 6
Εγγραφή: 30 Νοέμ 2012, 19:10

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από pane8486 »

Συγχαρητήρια, πολύ καλές οι πρώτες εντυπώσεις από το OCR.
tsak77
Δημοσιεύσεις: 24
Εγγραφή: 05 Δεκ 2012, 12:56

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από tsak77 »

Καλὴ καὶ εὐλογημένη χρονιὰ σὲ ὅλους. Σὲ πολλὰ βήματα τῆς ὀπτικῆς ἀνάγνωσης ἐμφανίζει τὰ κάτωθι μηνύματα. Αὐτὸ ἔχει ὡς ἀποτέλεσμα νὰ πρέπει σὲ κάθε εἰκόνα - σελίδα ποὺ θέλω νὰ εἰσάγω στὸ OCR νὰ κάνω ἀποθήκευση τῆς μέχρι τώρα πορείας τοῦ ἐγγράφου, ἐπανεκκίνηση τοῦ μελωδοῦ (ὄχι ἄνοιγμα τοῦ ἀρχείου ποὺ ἐπεξεργαζόμουν, διότι τὰ σφάλματα θὰ συνεχιστοῦν. Πρέπει νὰ μὴν ὑπάρχει ἀνοικτὸ ἔγγραφο), καὶ προσπάθεια ξανά. Ὅσον ἀφορᾶ στὸ θέμα τῆς ὑπολογιστικῆς μνήμης δὲν τίθεται θέμα, (ἂν καὶ πιστεύω ὅτι τὸ σφάλμα δὲν ἀναφέρεται σὲ αὐτό). Τὸ ἔχει παρατηρήσει καὶ ἄλλος αὐτό; Τί μπορεῖ νὰ φταίει;

Σημείωση: Οἱ εἰκόνες ποὺ φορτώνω στὸ OCR εἶναι διαστάσεων 3307χ4835 pixels.
Συνημμένα
Καταγραφή.JPG
Καταγραφή.JPG (23.61 KiB) Προβλήθηκε 97235 φορές
Καταγραφή.JPG
Καταγραφή.JPG (26.7 KiB) Προβλήθηκε 97235 φορές
Άβαταρ μέλους
Σάββας Παπαδόπουλος
Site Admin
Δημοσιεύσεις: 110
Εγγραφή: 24 Νοέμ 2012, 22:42
Επικοινωνία:

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από Σάββας Παπαδόπουλος »

Είναι ξεκάθαρα θέμα μνήμης.
Η εικόνα που προσπαθείς να φορτώσεις πιάνει μνήμη 3307 x 4835 χ 4 bytes = 63.957.380 byte = 64 Mbyte.
Αν ο υπολογιστής σου έχει 32bit Windows και όχι 64bit τότε αυτό μπορεί να προκαλέσει πρόβλημα, όχι πάντα.
Αλλά εξαρτάται και με το τι άλλα προγράμματα (ορατά και αόρατα) έχει φορτώσει ο υπολογιστής.
Επίσης ένα πρόβλημα δημιουργείται αν η εικόνα είναι σε μορφή .tif ή .tiff. Στην περίπτωση αυτή κάνε την σε μορφή .png.
Επίσης αν τίποτε από αυτά δεν ισχύει, άλλαξε τα dpi της εικόνας, πχ από 400 σε 300, με ένα πρόγραμμα επεξεργασίας εικόνας, ώστε να μειωθούν λίγο οι διαστάσεις της στο 3/4 και ξαναδοκίμασε.
Μέχρι τώρα δούλευε κανονικά;
Στο νέο Μελωδό δεν θα υπάρχει αυτό το πρόβλημα αφού μπορεί να φορτώνει μέχρι 2Gbyte εικόνες.
tsak77
Δημοσιεύσεις: 24
Εγγραφή: 05 Δεκ 2012, 12:56

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από tsak77 »

Σάββας Παπαδόπουλος έγραψε:Είναι ξεκάθαρα θέμα μνήμης.
Ἐννοεῖς ὅτι εἶναι θέμα μνήμης ὑπὸ τὴν ἔννοια ὅτι οἱ εἰκόνες εἶναι βαριὲς γιὰ τὸν μελωδό. Διότι ἡ RAM τοῦ ὑπολογιστὴ εἶναι στὰ 8 gb μὲ 5 ἐλεύθερα κατὰ τὴν λειτουργία τοῦ μελωδοῦ. Δὲν νομίζω ὅτι δὲν εἶναι ἀρκετά.
Η εικόνα που προσπαθείς να φορτώσεις πιάνει μνήμη 3307 x 4835 χ 4 bytes = 63.957.380 byte = 64 Mbyte.
Παραθέτω μία ἐξ αὐτῶν. Πῶς βγαίνει τόσο μικρὴ σὲ δεδομένα ἐνῶ εἶναι τόσο μεγάλη σὲ μέγεθος;
Αν ο υπολογιστής σου έχει 32bit Windows και όχι 64bit τότε αυτό μπορεί να προκαλέσει πρόβλημα, όχι πάντα.
Χρησιμοποιῶ win 10 64bit.
Αλλά εξαρτάται και με το τι άλλα προγράμματα (ορατά και αόρατα) έχει φορτώσει ο υπολογιστής.
Επίσης ένα πρόβλημα δημιουργείται αν η εικόνα είναι σε μορφή .tif ή .tiff. Στην περίπτωση αυτή κάνε την σε μορφή .png.
Θυμᾶμαι κάποια στιγμὴ καὶ σὲ προσωπική μας ἐπικοινωνία τὸ ἀνέφερες, γι' αὐτὸ καὶ ἐξ ἀρχῆς ἐπέλεξα ἡ ἐξαγωγὴ τῶν εἰκόνων νὰ γίνει σὲ .png
Επίσης αν τίποτε από αυτά δεν ισχύει, άλλαξε τα dpi της εικόνας, πχ από 400 σε 300, με ένα πρόγραμμα επεξεργασίας εικόνας, ώστε να μειωθούν λίγο οι διαστάσεις της στο 3/4 και ξαναδοκίμασε.
Αὐτὸ δούλεψε, μὲ ἀπώλειες ὅμως στὴν ἀνάγνωση (ὄχι μεγάλες, ἔνα 80% τὸ διάβασε, ἀλλὰ μιλᾶμε γιὰ δακτυλογραφημένο κείμενο, καὶ ἂν δὲν κάνω λάθος ἀπὸ τὴν γραμματοσειρά, μὲ τὸν μελωδό). Καὶ πάλι, δὲν συγκρίνεται τὸ νὰ δακτυλογραφεῖς μὲ τὸ νὰ τροποποιεῖς, ὁπότε ἂς μὴν εἶμαι καὶ πλεονέκτης.
Μέχρι τώρα δούλευε κανονικά;
Δὲν εἶχα ἀσχοληθεῖ ἰδιαίτερα, κυρίως δοκιμὲς ἔκανα. Μὲ τὴν εὐκαιρία τῆς ἀπάντησής σου θυμήθηκα ὅτι πάντα μὲ μείωση τῆς ποιότητας τὰ προβλήματα δὲν ἐμφανίζονταν.
Στο νέο Μελωδό δεν θα υπάρχει αυτό το πρόβλημα αφού μπορεί να φορτώνει μέχρι 2Gbyte εικόνες.
Ὡραῖα.
Συνημμένα
Pages from Κοινωνικά Αινείτε_Page_5.png
Pages from Κοινωνικά Αινείτε_Page_5.png (203.29 KiB) Προβλήθηκε 97228 φορές
Άβαταρ μέλους
Σάββας Παπαδόπουλος
Site Admin
Δημοσιεύσεις: 110
Εγγραφή: 24 Νοέμ 2012, 22:42
Επικοινωνία:

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από Σάββας Παπαδόπουλος »

Την δοκίμασα σε 2 υπολογιστές και δουλεύει χωρίς πρόβλημα.
Τρέξε το Μελωδό σαν Διαχειριστής (Administrator) και ξαναδοκίμασε.
(Με δεξι κλικ στο εικονίδιο του Μελωδού και "Εκτέλεση ως διαχειριστής")

Οι εικόνες σε μορφή png, jpeg, tif είναι συμπιεσμένες γι αυτό έχουν μικρό μέγεθος. Το πρόγραμμα για να τις επεξεργαστεί πρέπει να τις αποσυμπιέσει και τότε πιάνουν το φυσικό τους μέγεθος που θα είχε αν την αποθήκευες σε τύπο .bmp με 32bit χρώμα.
tsak77
Δημοσιεύσεις: 24
Εγγραφή: 05 Δεκ 2012, 12:56

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από tsak77 »

Ρύθμισα τὸ acrobat ἀπ' ὅπου ἐξάγω τὶς εἰκόνες ὥστε στὴν ἀνάλυση νὰ εἶναι 118,11pixels/cm. Κανένα πρόβλημα πλέον. Εὐχαριστῶ.
Άβαταρ μέλους
Σάββας Παπαδόπουλος
Site Admin
Δημοσιεύσεις: 110
Εγγραφή: 24 Νοέμ 2012, 22:42
Επικοινωνία:

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από Σάββας Παπαδόπουλος »

Έτσι όμως έχεις 118,11 pix/cm * 2.54 cm / intsa = 299,999 dpi ή 300 dpi
Ενώ η αρχική εικόνα ήταν στα 400 dpi και σε πιό κατάλληλο μέγεθος για μέγιστη αναγνώριση, αφού το ολίγον είχε ίδιο πλάτος με τον μετρητή του πάνω στην εργαλειοθήκη του OCR.

Το πρόβλημα είναι στα Windows σου. Αν θες στείλτο και σε άλλους να το δοκιμάσουν. Εγώ δεν είχα κανένα πρόβλημα.
tsak77
Δημοσιεύσεις: 24
Εγγραφή: 05 Δεκ 2012, 12:56

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από tsak77 »

Σάββας Παπαδόπουλος έγραψε: Το πρόβλημα είναι στα Windows σου.
Τί πρόβλημα θεωρεῖς ὅτι μπορεῖ νὰ ὑπάρχει στὰ windows;
Άβαταρ μέλους
Σάββας Παπαδόπουλος
Site Admin
Δημοσιεύσεις: 110
Εγγραφή: 24 Νοέμ 2012, 22:42
Επικοινωνία:

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από Σάββας Παπαδόπουλος »

Αρχικά δοκίμασες να τρέξεις το Μελωδό σαν διαχειριστής και να κάνεις το OCR;
tsak77
Δημοσιεύσεις: 24
Εγγραφή: 05 Δεκ 2012, 12:56

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από tsak77 »

Δοκίμασα ὡς διαχειριστὴς καὶ τὸ μήνυμα τῆς μνήμης ἐμφανίστηκε ὄχι ἀπὸ τὴν ἀρχὴ (τὴν προσπάθεια νὰ φορτώσω τὴν εἰκόνα δηλαδὴ στὸ ocr) ἀλλὰ ὅταν θέλησα νὰ τὸ ἐκπαιδεύσω σὲ ἕνα σημεῖο.
nbouris
Δημοσιεύσεις: 26
Εγγραφή: 01 Δεκ 2012, 23:07

Re: Σκανάρισμα OCR

Μη αναγνωσμένη δημοσίευση από nbouris »

Από περιέργεια δοκίμασα κι εγώ αν παρουσιάζεται πρόβλημα, δεν αντιμετώπισα κάποιο πρόβλημα. Επισυνάπτω και το αρχείο του μελωδού όπως έγινε η αρχική αναγνώριση χωρίς καμία διόρθωση ή εκπαίδευση. Νομίζω ότι είναι πολύ υψηλό το ποσοστό της αναγνώρισης.
Ο υπoλογιστής μου είναι:
windows 7 64bit
service pack 1
12 Gb Ram (8+4 disk)
Συνημμένα
Pages from Κοινωνικά Αινείτε_Page_5.png.mel
(18.51 KiB) Μεταφορτώθηκε 2393 φορές
Απάντηση