Распознавание и ретроконверсия тюркских текстов, напечатанных старым арабским шрифтом на татарском языке (на примере дореволюционного татарского журнала "Шура"

Автор  ООО "Инфокомм" Вторник, 02 Июль 2013 11:26

Наша фирма занималась распознаванием текста по заказу Института Азии и Африки Хельсинского Университета Финляндии. Целью проекта является создание виртуальной библиотеки и особого пространства текстов для изучения литературного наследия языковых меньшинств России. Предполагается, что эта виртуальная библиотека будет снабжена полнотектовым поисковым механизмом и эффективной возможностью работы с текстом, т.к. в ней должны быть представлены как имиджевые файлы, так и текстовые. Мы надеемся, что этот проект будет прекрасным примером виртуального возвращения культурного наследия большому кругу читателей по всему миру.

Первоочередная цель проекта - создание в Интернете литературного наследия национальных меньшинств царской России, на первом этапе это коллекция периодических изданий на татарском языке, напечатанных арабским шрифтом. Как только этот проект осуществится, представители этих языковых групп, так же как и исследователи, получат открытый доступ к подобным коллекциям редкого фонда.

На этапе работы с редкими изданиями самой трудной проблемой было автоматическое распознавание символов татарского алфавита, напечатанного арабским шрифтом. В начале ХХ века существовало несколько модификаций татарского алфавита и каждая отличалась от традиционного арабского своими дополнительными знаками, что и представляло особые трудности.

На начальном этапе в рамках проекта успешно удалось решить много технических проблем. Для этой цели была выбрана алфавитная система, которая представляет такой интересный социально-политический журнал "Шура", напечатанный в начале ХХ века на татарском языке арабским шрифтом с дополнительными символами. Наш пилотный проект состоял в сканировании текста, переводе его в текстовый файл при помощи программы распознавания текстов и создания полнотекстовой системы поиска.

Процесс распознавания текста журнала "Шура" осложнялся тем, что специальной программы распознавания текстов для татарского языка арабским шрифтом с дополнительными символами нет.

страница журнала
Рис.1 страница журнала
страница журнала
Рис.2 та же страница в текстовом виде

Также стояла проблема создания многоцелевого поискового механизма, в котором использовались бы возможности неординарных письменных систем с различными алфавитами с диакритическими знаками с левосторонней, так и с правосторонней графикой. Эти проблемы удалось решить. Для создания запросов и для удобства пользователя была создана виртуальная клавиатура с арабским шрифтом.

Чтобы улучшить поисковые технологии кроме поисковой системы и базы данных были сделаны библиографические описания статей журнала в MARC-формате. Причем описание в MARC-формате представлено на нескольких - русском, английском и татарском арабским шрифтом. Таким образом, соответственно, поиск возможен на нескольких языках. Поисковый механизм дает возможность проводить нечеткий поиск, что позволяет учитывать и ошибки в написании и возможные орфографические варианты. Помимо полнотекстового поиска в поисковый механизм заложены и другие опции, такие как, например, предметный поиск со всеми его преимуществами, что позволит сортировать и собирать статьи разной тематики.

Основной особенностью базы данных является то, что библиографическое описание статей привязано к имиджинговому файлу самой статьи и к ее распознанному текстовому файлу. Поэтому поиск может проводиться не только по заглавию, авторам и другим параметрам MARC-формата, но и по самим текстам статей.

В результате проделанной работы можно сделать следующий вывод: даже такие экзотические редкие фонды, (напечатанные на татарском языке арабским шрифтом с символами, отсутствующими в стандартном алфавите), поддаются обработке и переводу в текстовый файл для дальнейшей возможности открытого доступа и работы с ними широкого круга не только ученых, но и обычных читателей, доступ которых к редким фондам из-за целого ряда обстоятельств ограничен.

Прочитано 8738 раз Последнее изменение Четверг, 31 Октябрь 2013 07:50
Оцените материал
(0 голосов)