Сканиране и разпознаване на текст

Добър ден.

Вероятно всеки от нас се е сблъсквал със задачата да преобразува хартиен документ в електронен вид. Това е особено често необходимо за тези, които учат, работят с документация, превеждат текстове с помощта на електронни речници и др.

В тази статия бих искал да споделя някои основи на този процес. Като цяло, сканирането и разпознаването на текст отнема доста време, тъй като повечето операции ще трябва да се извършват ръчно. Ще се опитаме да разберем стъпка по стъпка какво, как и защо.

Не всеки веднага разбира едно нещо. След сканиране (сканиране на всички букви на скенера) ще имате изображения във формат BMP, JPG, PNG, GIF (може да има и други формати). Така че трябва да получите текст от тази картина - тази процедура се нарича разпознаване. Следното ще бъде в този ред.

1) Скенер

За да конвертирате отпечатани документи в текст, ви е необходим скенер и съответно „родни“ програми и драйвери, които идват с него. С тяхна помощ ще можете да сканирате документа и да го запазите за последваща обработка.

Можете да използвате други аналози, но софтуерът, доставен със скенера, обикновено работи по-бързо и има повече опции.

В зависимост от това кой скенер имате, скоростта на работа може да варира значително. Има скенери, които могат да направят снимка от писмо за 10 секунди, има скенери, които ще я направят за 30 секунди. Ако сканирате книга от 200-300 листа, мисля, че не е трудно да изчислите колко пъти ще бъде разликата във времето?

2) Програма за разпознаване

В нашата статия ще ви покажа как да работите в една от най-добрите програми за сканиране и разпознаване на всякакви документи - ABBYY FineReader. Тъй като програмата е платена, веднага ще дам линк към друга - нейният безплатен аналог Cunei Form.Вярно, не бих ги сравнявал, като се има предвид, че FineReader печели по всички параметри, препоръчвам да го опитате.

ABBYY FineReader 11

Официален уебсайт: http://www.abbyy.ru/

Една от най-добрите програми по рода си. Той е предназначен да разпознава текст върху изображение. Вградени са много опции и функции. Той може да различи много шрифтове, поддържа дори ръкописни версии (въпреки че не съм го пробвал лично, мисля, че е малко вероятно да разпознае ръкописен вариант, освен ако нямате перфектен калиграфски почерк). Повече подробности за работата с него ще бъдат описани по-долу. Тук отбелязваме, че статията ще разкаже за работата в 11-та версия на програмата.

По правило различните версии на ABBYY FineReader не се различават много една от друга. Лесно ще направите същото в друг. Основните разлики могат да бъдат в удобството, скоростта на програмата и нейните възможности. Например по-ранните версии отказват да отварят PDF и DJVU...

3) Документи за сканиране

Да, това е, реших да сложа документите в отделна колона. В повечето случаи те сканират някои учебници, вестници, статии, списания и т.н., тоест онези книги и литература, които се търсят. До какво водя това? От личен опит мога да кажа, че много от това, което искате да сканирате, вероятно вече е онлайн! Колко пъти аз лично съм спестявал време, когато намирам тази или онази книга вече сканирана онлайн. Всичко, което трябваше да направя, беше да копирам текста в документ и да продължа да работя с него.

Ето един лесен съвет - преди да сканирате нещо, проверете дали някой вече го е сканирал и няма нужда да си губите времето.

2. Опции за сканиране на текст

Тук няма да говоря за вашите драйвери за скенери, програми, коитоотидоха с него, защото всички модели скенери са различни, също е различно навсякъде и е невъзможно да се познае и още по-ясно да се покаже как да се извърши операцията.

Но всички скенери имат едни и същи настройки, които могат значително да повлияят на скоростта и качеството на вашата работа. За тях ще говорим тук. Ще изброя по ред.

1) Качество на сканиране – DPI

Първо задайте качеството на сканиране в опциите не по-ниско от 300 DPI. Желателно е дори да се изложат повече, ако е възможно. Колкото по-висок е DPI, толкова по-ясно ще бъде вашето изображение и по този начин по-бърза ще бъде последващата обработка. Освен това, колкото по-високо е качеството на сканирането, толкова по-малко грешки ще трябва да коригирате по-късно.

Най-добрият вариант обикновено осигурява 300-400 DPI.

2) Цвят

Този параметър значително влияе върху времето за сканиране (между другото, DPI също влияе, но само толкова много и само когато потребителят задава високи стойности).

Обикновено се разграничават три режима:

– черно-бяло (идеално за прост текст);

– сив (подходящ за текст с таблици и фигури);

– цвят (за цветни списания, книги, като цяло документи, където цветът е важен).

Обикновено времето за сканиране зависи от избора на цвят. В края на краищата, ако имате голям документ, дори допълнителни 5-10 секунди на страницата обикновено ще ви отнемат прилично време...

3) Снимки

Можете да получите документа не само чрез сканиране, но и като го снимате. Като правило в този случай ще имате някои други проблеми: изкривяване на изображението, замъгляване. Поради това може да се наложи по-продължително допълнително редактиране и обработка на получения текст. Аз лично не препоръчвам да използвате камери за тази цел.

Важно е да се отбележи, че не всички са такивадокументът ще бъде разпознат, тъй като качеството на сканирането му може да е изключително ниско...

3. Разпознаване на текст на документ

Ще приемем, че сте получили заветните сканирани страници. Най-често те са в следните формати: tif, bmb, jpg, png. Като цяло не е много важно за ABBYY FineReader...

След отваряне на картина в ABBYY FineReader, програмата, като правило, автоматично започва да маркира области и да ги разпознава. Но понякога тя го прави погрешно. За да направите това, ще обмислим избора на необходимите области ръчно.

Важно! Не всеки веднага разбира, че след отваряне на документ в програмата, в лявата част на прозореца се показва изходният документ, в който избирате различни области. След като щракнете върху бутона "разпознаване", програмата ще покаже готовия текст в прозореца вдясно. След разпознаването, между другото, препоръчително е да проверите текста за грешки в същия FineReader.

3.1 Текст

Тази област се използва за избиране на текст. Фигурите и таблиците трябва да бъдат изключени от него. Редките и необичайни шрифтове ще трябва да се въвеждат ръчно...

За да маркирате текстовата област, обърнете внимание на панела в горната част на FineReader. Има бутон "T" (вижте екранната снимка по-долу, показалецът на мишката е точно върху този бутон). Щраквате върху него, след което на снимката по-долу избирате спретнато правоъгълна област, в която се намира текстът. Между другото, в някои случаи трябва да създадете 2-3 текстови блока, а понякога и 10-12 на страница, тъй като форматирането на текста може да бъде различно и един правоъгълник не може да подчертае цялата област.

Важно е да се отбележи, че изображенията не трябва да влизат в текстовата област! Това ще ви спести много време по-късно...

3.2 Снимки

Използва се за подчертаване на снимки и онези области, коитотрудни за разпознаване поради лошо качество или необичаен шрифт.

На екранната снимка по-долу показалецът на мишката е върху бутона, използван за избиране на областта „снимка“. Между другото, можете да изберете абсолютно всяка част от страницата в тази област и след това FineReader ще я вмъкне в документа като обикновена картина. Тоест, просто "глупаво" копира...

Обикновено тази област се използва за избор на лошо сканирани таблици, за избор на нестандартен текст и шрифт и самите картини.

3.3 Таблици

Екранната снимка по-долу показва бутона за избор на таблици. Като цяло аз лично го използвам изключително рядко. Факт е, че ще трябва съвсем рутинно да рисувате (всъщност) всеки ред на масата и да показвате какво и как на програмата. Ако таблицата е малка и не е с много добро качество, препоръчвам да използвате зоната "снимка" за тези цели. Това ще ви спести много време и можете бързо да създадете таблица въз основа на картина в Word.

3.4 Ненужни елементи

Важно е да се отбележи. Понякога на страницата има ненужни елементи, които затрудняват разпознаването на текста или изобщо не ви позволяват да изберете желаната област. Те могат да бъдат напълно премахнати с помощта на "гумичка".

За да направите това, отидете в режим за редактиране на изображения.

Изберете инструмента "гума" и изберете желаната област. Той ще бъде изтрит и на негово място ще има бял лист хартия.

Между другото, препоръчвам ви да използвате тази опция възможно най-често. Опитайте се да изтриете всички текстови области, които сте избрали, където не се нуждаете от част от текста или има ненужни точки, замъглявания, изкривявания с гумичка. Благодарение на това процесът на разпознаване ще бъде по-бърз!

4. Разпознаване на PDF/DJVU файлове

Като цяло този формат за разпознаване няма да се различава по никакъв начин от другите - тоест можете да работите с него по същия начин, както със снимки. Единственото нещо е, че програмата не трябва да е много стара, ако не отваряте PDF/DJVU файлове - актуализирайте версията до 11.

Малък съвет. След като отворите документ на FineReader, той автоматично ще започне да разпознава документа. Често в PDF/DJVU файлове определена област от страницата не е необходима в целия документ! За да премахнете такава област на всички страници, направете следното:

1. Отидете в секцията за редактиране на изображения.

2. Включете опцията „подрязване“.

3. Маркирайте областта, която искате на всички страници.

4. Щракнете върху Прилагане към всички страници и изрязване.

5. Проверка на грешки и запазване на резултатите от работата

Изглежда, че какви други проблеми може да има, когато всички области бяха избрани, след това разпознати - вземете и запазете... Не беше тук!

Първо се изисква проверка на документи!

За да го включите, след разпознаване ще има бутон "проверка" в прозореца вдясно, вж. екранна снимка по-долу. След като щракнете върху него, програмата FineReader автоматично ще ви покаже онези области, където програмата е срещнала грешки и не е могла надеждно да идентифицира конкретен символ. Всичко, което трябва да направите, е да изберете дали сте съгласни с мнението на програмата или да въведете своя символ.

Между другото, в приблизително половината от случаите програмата ще ви предложи готова правилна дума - достатъчно е да изберете желаната опция с мишката.

Второ, след проверка трябва да изберете формата, в който ще запазите резултата от работата си.

Тук FineReader ви позволява да направите пълен кръг: можете просто да прехвърлите информация в Word едно към едно или можете да я запишете в един отдесетки формати. Но бих искал да подчертая още един важен аспект. Който и формат да изберете, важно е да изберете вида на копието! Нека разгледаме най-интересните опции...

Точно копие

Всички области, маркирани на страницата в разпознатия документ, ще съответстват точно на оригиналния документ. Много удобна опция, когато е важно да не загубите форматирането на текста. Между другото, шрифтовете ще бъдат много подобни на оригинала. В този случай препоръчвам да прехвърлите документа в Word, за да продължите по-нататъшната работа там.

Редактирано копие

Тази опция е добра, защото ще получите вече форматирана версия на текста. Тоест няма да намерите отклонения от "километър", които може да са били в оригиналния документ. Полезна опция, когато ще редактирате значително информация.

Вярно е, че не трябва да избирате, ако е важно за вас да запазите стила на дизайна, шрифтовете, отстъпите. Понякога, ако разпознаването не е било много успешно, вашият документ може да е изкривен" поради промененото форматиране. В този случай е препоръчително да изберете точно копие.

Обикновен текст

Вариант за тези, които се нуждаят само от текста от страницата без всичко останало. Подходящ за документи без картинки и таблици.

Това завършва статията за сканиране и разпознаване на документи. Надявам се, че тези прости съвети ще ви помогнат да разрешите предизвикателствата си...

Късмет!

⇐Предишна

Следваща⇒