Разпознаване на текст. Безплатна програма, подобна на FineReader
Рано или късно всеки, който често работи с офис програми, се сблъсква с типична задача - да сканира текст от книга, списание, вестник, просто лист хартия, и след това да конвертира тези изображения в текстов формат, например Word документ.За да направите това, имате нужда от скенер и специална програма за разпознаване на текст. Тази статия ще обсъди безплатния аналог на FineReader - CuneiForm(за разпознаването във FineReader - вижте тази статия).
Да започваме...
CuneiForm
Можете да изтеглите от уебсайта на програмиста: http://cognitiveforms.com/
Програма за разпознаване на текст с отворен код. Освен това работи във всички версии на Windows: XP, Vista, 7, 8, което радва. Освен това добавете пълен руски превод на програмата!
Плюсове:
– разпознаване на текст на 20-те най-популярни езика в света (английски и руски са включени в това число);
– огромна поддръжка за различни шрифтове;
– проверка на речника на разпознатия текст;
- възможност за запазване на резултатите от работата в няколко версии;
- запазване на структурата на документа;
– отлична поддръжка и разпознаване на таблици.
Недостатъци:
– не поддържа документи и файлове, които са твърде големи (над 400 dpi);
- не поддържа директно някои видове скенери (е, не е страшно, специална програма за сканиране е включена в драйверите на скенера);
– дизайнът не блести (но кой има нужда от него, ако програмата напълно решава задачата).
2. Пример за разпознаване на текст
Ще приемем, че вече сте получили нужните картинки за разпознаване (сканирали сте ги там или сте изтеглили книга от интернет във формат pdf/djvu и сте получили нужните картинки от тях. Как да направите това вижте тукстатии).
1) Отворете желаната снимка в програмата CuineForm (file/open или “Cntrl+O”).
2) За да започнете разпознаването, първо трябва да изберете различни области: текст, графики, таблици и т.н. В програмата Cuneiform това може да стане не само ръчно, но и автоматично! За да направите това, кликнете върху бутона "маркиране" в горния панел на прозореца.
3) След 10-15 сек. програмата автоматично ще маркира всички области с различни цветове. Например текстовата област е маркирана в синьо. Между другото, тя освети района правилно и достатъчно бързо. Честно казано не очаквах толкова бърза и коректна реакция от нейна страна...
4) За тези, които не вярват на автоматичното маркиране, можете да използвате и ръчно маркиране. За целта има лента с инструменти (вижте снимката по-долу), благодарение на която можете да избирате: текст, таблици, изображения. Преместване, увеличаване/намаляване на оригиналното изображение, изрязване на краищата. Като цяло добър комплект.
5) След като всички области са маркирани, можете да продължите към разпознаване. За да направите това, просто щракнете върху бутона със същото име, както е на снимката по-долу.
6) Буквално след 10-20 секунди. документ с разпознат текст ще се отвори в Microsoft Word. Интересното е, че в текста за този пример, разбира се, имаше грешки, но имаше много малко! Още повече, като се има предвид колко незабележителен беше изходният материал - картината.
Като скорост и качество е доста сравним с FineReader!
3. Пакетно разпознаване на текст
Тази функция на програмата може да бъде полезна, когато трябва да разпознаете не една снимка, а няколко наведнъж. Прекият път за стартиране на разпознаването на пакети обикновено е скрит в менюто "старт".
1) След като отворите програмата, трябва да създадете новапакет или отворете предварително запазен такъв. В нашия пример ще създадем нов.
2) В следващата стъпка му даваме име, за предпочитане такова, че дори след шест месеца да помним какво се съхранява в него.
3) След това изберете езика на документа (руско-английски), посочете дали има снимки и таблици във вашия сканиран материал.
4) Сега трябва да посочите папката, в която се намират файловете за разпознаване. Между другото, интересното е, че самата програма ще намери всички снимки и други графични файлове, които може да разпознае, и ще ги добави към проекта. Ще трябва да премахнете допълнителните.
5) Следващата стъпка не е важна - вие избирате какво да правите с изходните файлове след разпознаването. Препоръчвам да поставите отметка в квадратчето „не правете нищо“.
6) Остава само да изберете формата, в който ще бъде записан разпознатият документ. Има няколко опции:
– rtf– word файл, отварян от всички популярни офиси (включително безплатни, връзки към програми);
– txt– текстов формат, в него може да се записва само текст, не се допускат снимки и таблици;
– htm– хипертекстова страница, удобна ако сканирате и разпознавате файлове за сайта. Ще го изберем в нашия пример.
7) След натискане на бутона "готово" ще започне процесът на обработка на вашия проект.
Програмата работи доста бързо. След разпознаването пред вас ще се появи раздел с htm файлове. Ако щракнете върху такъв файл, ще се стартира браузър, където можете да видите резултатите. Между другото, пакетът може да бъде запазен за по-нататъшна работа с него.
9) Както можете да видите, резултатитеот работата са много впечатляващи. Програмата лесно разпозна снимката и текста под нея. Въпреки факта, че програмата е безплатна, тя е наистина страхотна!
4.Изводи
Ако често не сканирате и разпознавате документи, тогава закупуването на програмата FineReader вероятно няма смисъл. CuneiForm лесно се справя с повечето задачи.
От друга страна има и недостатъци.
Първо, има много малко инструменти за редактиране и проверка на получения резултат. На второ място, когато трябва да разпознаете много снимки във FineReader, е по-удобно веднага да видите всичко, което е добавено към проекта в колоната вдясно: бързо изтрийте излишното, направете корекции и т.н. И трето, върху документи на вече лошо качество, CuneiForm губи в качеството на разпознаване: трябва да приведете документа в ума си - да редактирате прозорците, да поставите препинателни знаци, кавички и т.н.
Това е всичко. Знаете ли за друг приличен безплатен софтуер за разпознаване на текст?