Представление словарей и справочников в электронной библиотеке знаний

Dictionaries and Reference Books in the Digital Library of Knowledge

Представлення словників і довідників в електронній бібліотеці знань

Стеллецкий В.И.

Всероссийский научно-исследовательский институт информации и технико-экономических
исследований агропромышленного комплекса, Москва, Россия

Аветисов М.А.

Центральная научная сельскохозяйственная библиотека, Москва, Россия

V. I. Stelletsky

All-Russian Research Institute of Information and Technicoeconomic Research in Agriculture, Moscow, Russia

M. A. Avetisov

Central Scientific Agricultural Library, Moscow, Russia

В.І. Стеллецький

Всеросійський науково-дослідний інститут інформації і техніко-економічних
досліджень агропромислового комплексу, Москва, Росія

М.А. Аветисов

Центральна наукова сільськогосподарська бібліотека, Москва, Росія

Рассматривается один из аспектов создания электронных словарей и справочников на основе печатных изданий.

An aspect of creating digital dictionaries and reference books on the basis of printed publications is considered.

Розглядається один з аспектів створення електронних словників та довідників на основі друкованих видань.

 

Одним из информационных ресурсов отраслевой электронной библиотеки знаний должна быть подборка словарей и справочников соответствующей тематики. Часто такие словари и справочники имеются только в виде книг. Возникает необходимость перевода их в “машиночитаемый” электронный вид для предоставления в интернет.

При предоставлении словаря в электронном виде представляется желательным как возможность поиска по заголовкам статей словаря, так и по полному их тексту. Естественно, должны показываться приложенные к статье иллюстрации и осуществляться ссылки на другие статьи этого же словаря.

Для обеспечения такого, в том числе полнотекстового, поиска необходимо загрузить в поисковую систему (базу данных) образ словаря, разделенный на отдельные статьи. При этом заголовок статьи должен быть выделен в отдельное поле для обеспечения поиска только по заголовкам. Другим решением может быть создание отдельной базы заголовков со ссылками на полные тексты статей словаря.

Наиболее быстрым и, следовательно, дешевым способом получения электронного вида словаря или справочника является сканирование и дальнейшее распознавание страниц книги-источника.

Современные системы распознавания такие, как например FineReader, позволяют передавать результат распознавания в WinWord, где этот результат вместе с иллюстрациями напоминает обрабатываемые страницы первоисточника. В WinWord'е возможно выполнять необходимую корректировку текста и преобразование его в формат HTML. При этом сохраняется необходимая разметка документа (разделение на абзацы, жирность, курсив, таблицы, рисунки, как ссылки отдельные образы, конечно).

В то же время формат HTML является одним из входных форматов ИПС Артефакт, позволяющей проводить поиск в полнотекстовой базе данных из интернет (с использованием морфологического разбора запроса и объекта поиска). Однако, чтобы в результате поиска каждая статья словаря показывалась отдельно, при загрузке в базу Артефакт каждая статья должна быть оформлена в виде отдельного файла, а для возможности поиска только по заголовкам, заголовок статьи должен быть представлен как поле базы, и следовательно, снабжен префиксом с идентификатором этого поля.

Возникают две проблемы:

  1. необходимо преобразование (желательно автоматическое) имеющейся информации в формат загрузки в базу данных;
  2. результат поиска и отображения в универсальной ИПС типа Артефакт не вполне удовлетворяет ожидаемой форме предоставления словаря в электронной библиотеке знаний.

Вторая проблема принципиально решается написанием CGI программы, которая будет работать между пользователем и ИПС и преобразовывать получаемые от пользователя запросы в язык запросов ИПС, и, наоборот, возвращаемые ИПС html-страницы в удобную для пользователя форму (например, убирая идентификаторы поисковых полей ИПС).

Для возможности решения первой проблемы необходимо уметь отвечать на следующие вопросы:

К счастью авторы толковых словарей уже позаботились о выделении заголовков статей и ссылок на другие статьи. Но сделано это для человека, смотрящего на страницу словаря.

Обычное для толковых словарей выделение следующее:

Эти выделения легко находятся в html-файлах, сгенерированных WinWord версии 8 (из “Офиса 97”), т.к. в них жирность и курсив определяются соответственно тегами языка HTML <B> и <I>. WinWord 2000 (версия 9), к сожалению, решает вопрос выделений с использованием команд стилей, что существенно затрудняет автоматическое распознавание этого выделения

К несчастью автоматизаторов ссылки на другие статьи толкового словаря находятся в контексте предложения или даже абзаца и записываются в соответствии с правилами языка в соответствующем падеже (числе, и т.п.). Для экономии места в толковых словарях часть слов заменяется на сокращения, список которых зачастую не приведен и зависит от контекста. Сокращения встречаются и в ссылках. Иногда даже в ссылках приводятся не все слова из заголовка статьи-адресата. Например, в статье АНДАЛУЗСКАЯ ПОРОДА встречается такое предложение: “Ее широко использовали при выведении голштинской, кладрубской, липицанской, неаполитанской, ольденбургской, фризской, фредериксборгской (датской) и др. п-д, а также орловского рысака”. Здесь приведены ссылки на другие породы, заголовки статей которых содержат слово ПОРОДА, например, ГОЛШТИНСКАЯ ПОРОДА и т.п. Кроме этого тем же курсивом выделяются иногда и другие элементы, например, отсылка к “литературе”.

Итак, поговорим о разрешении ссылок (организация переходов по ссылкам от одних статей к другим).

Эта операция представляется очень трудоемкой при “ручном” исполнении — для каждой ссылки требуется проверить наличие соответствующей статьи словаря, и далее проставить у этой статьи метку, если ее еще не было в результате обработки других ссылок, и организовать переход на эту метку от ссылки в тексте анализируемой статьи. Такой подход требует доступность на изменение при обработке всего текста словаря, что исключает (или организационно очень затрудняет, требуя многократных просмотров) одновременную обработку с нескольких рабочих мест.

При решения задачи автоматического сопоставления ссылок на статьи и словарных статей надо уметь приводить текст названия статьи и текст ссылки на нее к некоторому виду, который должен удовлетворять двум условиям:

Одним из вариантов такого вида сопоставления словарных статей может являться представление в именительном падеже единственного числа, но приведение к такому виду требует наличия морфологического анализатора текста.

Оказалось, что достаточно хорошо удовлетворяет условиям вида сопоставления представление текста названия словарной статьи с удаленными гласными, твердым и мягким знаками, и кратким, и некоторыми сочетаниями букв, например, “ых” в конце каждого слова словарной статьи.

Можно выделить несколько подходов к автоматизации операции сопоставления ссылок и словарных статей и установки соответствующих связей.

Одним и подходов является следующий:

При этом подходе требуется наличие в “момент обработки” всех текстов словарных статей. При корректировке этих текстов, затрагивающей названия словарных статей и ссылки, обработка должна быть повторена.

При другом подходе можно в качестве меток — идентификаторов словарных статей -использовать либо сам вид сопоставления, либо некоторые идентификаторы, полученные из этого вида применением одного из алгоритмов хеширования (в последнем случае сокращается длина метки-идентификатора и исключается наличие в нем русских букв, которые неадекватно воспринимаются некоторыми системами в области управляющих данных).

При этом подходе при автоматической расстановке меток-идентификаторов словарных статей и переходов по ссылкам наличие всего словаря не является необходимым. Возможна обработка отдельных частей словаря. Правда, после завершения обработки всего словаря требуется проверка всех сформированных переходов по ссылкам. Часть таких переходов может быть сформирована ошибочно из-за ошибок в словаре или из-за принятия за ссылку некоторого текста, не являющегося ссылкой.

Применение в качестве меток-идентификаторов словарных статей вида сопоставления попутно позволяет частично решить проблему использования в ссылке не всех слов словарной статьи. Можно требовать не полного текстуального совпадения идентификаторов ссылок и меток, а только совпадения идентификатора ссылки с началом метки пословно. (Обычно опускаемые в ссылке слова стоят в конце заголовка статьи.) Конечно, при этом могут быть допущены ошибки, когда есть два термина с одинаковым первым словом и различным вторым. Все ссылки с опущенным вторым словом (из контекста его получить представляется затруднительным — для этого требуется уже семантический анализ текста) будут разрешаться на первый из такой пары терминов. Полностью отказаться от редакторской проверки и правки текста, видимо, пока еще не удается.

Словари сельскохозяйственной библиотеки знаний представлены по адресу http://www.cnshb.ru/akdil/.