Распознавание текстов

Автор  ООО "Инфокомм" Вторник, 25 Июнь 2013 08:43

В отличие от бумажных электронные документы могут обрабатываться более эффективно. В большинстве случаев само по себе изображение (образ документа) дает мало преимуществ. Для того чтобы можно было редактировать документ, осуществлять поиск по нему или использовать его фрагменты при подготовке новых документов и т.д., необходимо перевести полученный образ в текстовый документ. Поэтому распознавание отсканированных документов очень важный этап в организации документооборота. Для этого необходим специальный инструмент, способный перевести изображение в текстовый редактируемый документ. Такие инструменты существуют, их общее название - программы оптического распознавания символов (optical character recognition, OCR). C помощью программы распознавания компьютер сможет "прочесть" отсканированный текст. А затем воссоздать первоначальный вид страницы со всеми имеющимися графическими элементами. Использование распознавания текста после сканирования печатного издания позволяет не только сохранить редкий экземпляр и обеспечить доступ к нему широкого круга лиц, но и дает возможность использовать самые современные методы автоматического исследования текста. Современные технологии позволяют решить и проблему разрушения бумаги при частом использовании и проблему лакун в коллекциях. Это подразумевает, что теперь материалы, хранящиеся в фондах в редких коллекциях, могут быть активно использованы за счет их электронных дубликатов. Распознание архивных документов полезно для осуществления по ним полнотекстового поиска, удобства работы с фрагментами текста, представленными в электронном виде.


В настоящее время помимо выполнения распознавания архивных документов был реализован проект по распознаванию тюркских текстов.