Потребность
Оцифровка бумажных архивов обладает множеством преимуществ, в том числе качественно новыми возможностями по предоставлению и использованию документации – появляется возможность одновременной работы с документом нескольких пользователей и удаленной работы.
Очевидными достоинствами внедрения архивной системы в организации являются:
-
Улучшение сохранности документов, что особенно важно для собраний редких материалов;
-
Улучшение качества и комфортности обслуживания. При соответствующей подготовке электронных копий появляется также возможность копирования фрагментов документов и даже редактирования;
-
Повышение оперативности поиска, увеличение точности и полноты найденной информации;
-
Увеличение производительности труда работников архивов, особенно при систематизации, создании справочно-информационных материалов и т.д.;
-
Сокращение расходов финансовых, материальных и людских ресурсов, в том числе возможность высвобождения архивных площадей.
Крупнейшими потребителями этой услуги в ближайшие годы будут государственные организации. В 2010 году был принят Федеральный закон N 210-ФЗ "Об организации предоставления государственных и муниципальных услуг", который регулирует право россиян запрашивать и получать официальную информацию в электронном виде и обязанность госорганов такие документы предоставлять. Для решения этой задачи будут оцифрованы многие десятки миллионов документов (см. госпрограмму "Информационное общество" на 2011-2020 годы).
В последующие годы принят целый ряд законов перевода страны на рельсы информационных технологий. Например N 227-ФЗ или Федеральный закон от 28.07.2012 N 133-ФЗ, обязывающий ЗАГСы переходить на предоставление информации в электронном виде напрямую через СМЭВ в форматах, согласованных в Министерстве Юстиции. Однако на данный момент более 80% всей информации в ЗАГС хранится в бумажном виде
Технология. Оцифровка бумажных архивов состоит из следующих технологических операций:
- Работа с бумажными документами
- Сканирование документов,
- Улучшение изображений,
- Индексирование документов,
- Распознавание документов и компоновка всех составляющих в соответствии с требованиями заказчика,
- Внутренняя приемка работы,
- Запись результатов в систему Заказчика или на носители информации и приемка работы Заказчиком.
- Если работы производятся на различных территориях, появляются операции по обеспечению защиты данных при переносе информации с одной территории на другую.
На первом этапе производится приемка партии документов: составляется опись, при необходимости документы номеруются и расшиваются, определяется структура бумажного массива, количественные и качественные характеристики документов. На основе результатов экспертизы корректируется технология оцифровки документов, критерии оценки качества, состав оборудования. Может также производиться отбор и реставрация документов. В случае расшивки документы после сканирования могут сшиваться (в папки, коленкор и пр.).
Второй этап представляет собой непосредственно сканирование - создание графических образов документа с использованием сканеров. Тип сканера определяется характеристиками документа (размер страницы, сшитый или нет, качество бумаги) и требованиями к изображению (разрешение, цветность и т.д.). Перед тем, как переводить документ в электронный вид, оператор должен подобрать оптимальный режим сканирования, при проведении, собственно, сканирования, необходимо контролировать на мониторе качество получаемых изображений.
После сканирования графические образы проходят процедуру улучшения изображения, включающую при необходимости разделение разворотов по страницам, обрезку по краям, выравнивание по строкам, удаление шумов. При необходимости для всех или отдельных электронных образов может быть проведена дополнительная обработка, связанная с выравниванием фона, регулированием яркости, контрастности, изменении цветности и так далее.
Индексирование документов проводится в рабочей системе (базе данных) индексирования, которая предварительно настраивается на конкретный проект. Индексирование документов представляет собой создание электронной записи о документе, содержащей поля (реквизиты), определяемые Заказчиком, и привязке к записи электронного образа документа, т.е. создание ссылки на файлы, содержащие графический образ и текст данного документа.
После окончания процесса индексирования в соответствии с требованиями заказчика могут проводиться:
-
распознавание для дальнейшей организации полнотекстового поиска и, по желанию, редактирования,
-
формирование PDF (в том числе двухслойных) или многостраничных tif файлов. При этом осуществляется формирование связанных между собой массивов файлов изображений, текстовых файлов, PDF-файлов и фрагмента базы данных, содержащего значения индексов и вспомогательных данных.
Оцифровка бумажных архивов с «ИнфоКомм»
Специалисты нашей компании - это команда высококвалифицированных специалистов, которые успешно завершили не один проект. Нашими клиентами были как мелкие учреждения, так и крупнейшие организации. Мы имеем богатейший опыт работы с документами и архивами любых объемов.
Центры сканирования имеются в Санкт-Петербурге и Москве. Перевод бумажных документов в электронный вид может также осуществляться мобильными бригадами. Центры и бригады оснащены профессиональной сканирующей техникой, с которой работают опытные операторы. Имеются также сканеры микроформ: микропленки и микрофиш.
Последующая обработка производится в Санкт-Петербурге.
Успешное выполнение проектов обусловлено использованием разработанной в ООО «ИнфоКомм» программой управления технологическим процессом «ИнфоКомм АСУ ТП». В программе для каждого проекта задается технологическая цепочка произвольной конфигурации. При настройке цепочки создаются рабочие места для операторов каждой технологической операции. Там, где это возможно, программа обеспечивает доступ к рабочим местам через Интернет для операторов-надомников.
После этого программа берет на себя распределение заданий работникам (в том числе и надомникам), контроль, учет рабочего времени и выработки, расчет зарплаты и т.д., причем одновременно управляет несколькими проектами.
Весь технологический цикл от создания электронных копий документов до передачи обработанного массива заказчику контролируется и управляется с помощью системы администрирования. Менеджер проекта и руководители подразделений имеют возможность в режиме реального времени отслеживать степень обработки любого документа или партии документов, контролировать производительность и качество работы как подразделений в целом, так и каждого конкретного исполнителя. Использование этой системы позволяет ответственным лицам эффективно управлять имеющимися в их распоряжении производственными ресурсами. Это в конечном итоге положительно сказывается как на скорости обработки документов, так и на качестве этой обработки.
Технологические этапы реализации любого проекта можно условно разделить на две группы:
-
Сервисы автоматической пакетной обработки.
-
Автоматизированные рабочие места (АРМ) операторов.
К первой группе относятся этапы пакетной графической обработки и коррекции исходных отсканированных изображений, оптического распознания текстов документов, формирование электронной копии документа в различных форматах, проверка корректности индексации документов, создание полнотекстовых индексов.
Участие оператора в этих тапах сводится к анализу протоколов результатов обработки. В случае выявления систематических ошибок производится более тонкая настройка алгоритмов обработки. Отдельные, единичные документы могут быть обработаны «вручную». В настоящее время, за счет оптимизации алгоритмов, количество документов, не поддающихся автоматической обработке, удалось снизить до 1%.
Ко второй группе относятся АРМ операторов ввода поисковых атрибутов документов, АРМ руководителей подразделений, АРМ экспертов-контролеров.
Например, на участке сканирования оператор, взяв папку документов, выбирает соответствующую опись и начинает сканирование. Программа присваивает полученным изображениям соответствующие уникальные имена и помещает их в нужный раздел. При этом контролируется соответствие количества изображений описи и качество по распределению интенсивностей точек изображений. Подозрительные изображения проверяются контролером участка и, при необходимости, возвращаются на пересканирование. Принятые контролером файлы программа запускает на автоматическую обработку и, если это предусмотрено технологией, обработку с участием оператора. Обработка осуществляется, как встроенными средствами программы, так и с использованием внешних программ, например, программой BookRestorer. Комплект изображений программа выдает первому освободившемуся оператору соответствующей специальности. Причем оператор может иметь несколько специализаций. Далее опять может следовать контроль качества, автоматический, или оператором контроля данных..
После этого возможна сортировка документов например на печатные и рукописные. Предположим ввод некоторых индексов рукописных документов проводится методом двойного ввода. В этом случае программа выдает изображение документа и прописанную в технологии форму ввода двум незивисимым операторам и сверяет полученные результаты. В случае их несовпадения правильность того или другого варианта определяет третий оператор – эксперт. Другие индексы данного документа могут формироваться однократным вводом. Могут быть прописаны правила контроля правильности ввода: диапазон дат, правила формирования шифров, справочники, проверка орфографии и т.д. В некоторых случаях контроль осуществляется путем сравнения введенных и распознанных данных. Предусмотрена также возможность отметить документ как спорный и отправить его на разъяснение заказчмку. Проиндексированный документ программа передает на следующую технологическую операцию и так по всей цепочке.
Очевидно, что избежать путаницы и даже потерь при обработке массивов из многих миллионов листов документов по такой цепочки операций, можно только с помощью программы.
Все действия по обработке документа протоколируются и брак в выполнении любой операции, обнаруженный на любом этапе, исправляется конкретным исполнителем и учитывается при начислении зарплаты. Эти протоколы являются также средством профилактики разглашения конфиденциальной информации.
Для того чтобы заказчик мог объективно оценить качество проделанных работ на его территории может быть развернута контрольно-принимающая система (КПС). Основными функциональными возможностями КПС являются:
-
Возможность одновременного просмотра всех атрибутов документа и всех мультимедиа расширений, к нему прикрепленных.
-
Эффективный и быстрый поиск по всему массиву обработанных документов по любым имеющимся атрибутам. Причем система предоставляет возможность построения логических поисковых выражений любой сложности.
-
Возможность проверки «случайной» выборки документов. Данный режим позволяет работникам архива объективно оценить качество всего предоставленного на проверку массива документов с минимальными трудозатратами.
-
Предоставление различной отчетной и статистической информации.
-
Ведение журнала операций.
На заключительном этапе работ производится передача заказчику массива электронных копий и данных, полученных при индексации. Система «ИнфоКомм АСУ ТП» позволяет выгружать данные из своей технологической базы в базу данных под управлением всех основных СУБД.
Наш крупнейший заказчик – Верховный Суд Российской Федерации уже 4 года заключает с нами контракты на оцифровку своих архивов. Причем в данном проекте мы удовлетворяем уникальному требованию по количеству ошибок: 1 ошибочный символ примерно на 50 страниц. В своем письме Верховный Суд пишет: «фирма «ИнфоКомм» гарантировала чрезвычайно низкий уровень ошибок - 1 ошибка на 2000 документов, т.е. примерно 1 ошибочный символ из 100-150 тысяч символов слабосвязанного текста: номера дел, названия судов, даты, фамилии, имена, среди которых много нерусских. Фактический уровень ошибок был в несколько раз ниже».