Распознавание текстов

Автор ООО "Инфокомм" Вторник, 25 Июнь 2013 08:43

размер шрифта уменьшить размер шрифта увеличить размер шрифта
Печать
Эл. почта

В отличие от бумажных электронные документы могут обрабатываться более эффективно. В большинстве случаев само по себе изображение (образ документа) дает мало преимуществ. Для того чтобы можно было редактировать документ, осуществлять поиск по нему или использовать его фрагменты при подготовке новых документов и т.д., необходимо перевести полученный образ в текстовый документ. Поэтому распознавание отсканированных документов очень важный этап в организации документооборота. Для этого необходим специальный инструмент, способный перевести изображение в текстовый редактируемый документ. Такие инструменты существуют, их общее название - программы оптического распознавания символов (optical character recognition, OCR). C помощью программы распознавания компьютер сможет "прочесть" отсканированный текст. А затем воссоздать первоначальный вид страницы со всеми имеющимися графическими элементами. Использование распознавания текста после сканирования печатного издания позволяет не только сохранить редкий экземпляр и обеспечить доступ к нему широкого круга лиц, но и дает возможность использовать самые современные методы автоматического исследования текста. Современные технологии позволяют решить и проблему разрушения бумаги при частом использовании и проблему лакун в коллекциях. Это подразумевает, что теперь материалы, хранящиеся в фондах в редких коллекциях, могут быть активно использованы за счет их электронных дубликатов. Распознание архивных документов полезно для осуществления по ним полнотекстового поиска, удобства работы с фрагментами текста, представленными в электронном виде.

В настоящее время помимо выполнения распознавания архивных документов был реализован проект по распознаванию тюркских текстов.

Другие материалы в этой категории: Сканирование и индексирование Ретроконверсия Обучение RUSMARC

Наверх