Домой

Сельскохозяйственная электронная библиотека знаний: проблемы и решения




Скачать 56.43 Kb.
НазваниеСельскохозяйственная электронная библиотека знаний: проблемы и решения
Дата05.02.2013
Размер56.43 Kb.
ТипДокументы
Подобные работы:

Сельскохозяйственная электронная библиотека знаний: проблемы и решения.

Аббакумова Н.П., к.п.н., ученый секретарь ЦНСХБ Россельхозакадемии

Аветисов М.А., зам. директора ЦНСХБ Россельхозакадемии,


В настоящее время творческим коллективом сотрудников ЦНСХБ Россельхозакадемии в рамках гранта РФФИ №. 00-07-90208, проводится целый комплекс мероприятий по созданию Сельскохозяйственная электронная библиотека знаний (СЭБиЗ).

Основная цель – это создание полнотекстовой и документографической информации в помощь научным коллективам, учащимся высших и средних учебных заведений, а также обеспечение доступа к электронной версии фрагментов редкой сельскохозяйственной книги на основе новых информационных технологий в сочетании с простыми средствами взаимодействия с пользователем на языке, близким к естественному.

ЦНСХБ Россельхозакадемии как отраслевой информационный центр создает целый комплекс вторичной информации по проблемам АПК, который включает: текущую систематическую библиографическую информацию, реферативную, библиографическую информацию научно-вспомогательного характера, биобиблиографическую.

Поставив перед собой задачу создания СЭБиЗ, была выработана методологическая основа ее организации. СЭБиЗ включает в себя:

  • фрагменты энциклопедических словарей и справочников.

  • сведения о научно-технических разработках;

  • полнотекстовые фрагменты из редкой книги;

  • справочно-адресную информацию о научно-исследовательских и учебных заведений АПК;

  • рисунки, таблицы, графики, фотоматериалы;

  • полнотекстовые отчеты по НИР.

Значительные усилия в процессе выполнения проекта были направлены на выявление информационных ресурсов по научному обеспечению сельского хозяйства в нашей стране и за рубежом. К сожалению, в России практически не существует узлов, на которых отражались бы научные достижения организаций и предприятий сельскохозяйственного профиля. Имеют место случаи предоставления пользователям информации по инженерно-техническому обеспечению АПК России, удобрениям, кормам или ветеринарным препаратам.

Имеется значительное количество электронных ресурсов за рубежом с широким спектром информации, в частности научного характера. В результате предпроектного исследования накоплен материал для составления путеводителя по научным сельскохозяйственным ресурсам Интернет для последующего включения в каталог СЭБиЗ.

В настоящее время разработан первый вариант пилотного проекта СЭБиЗ, в качестве базового программного обеспечения выбраны: MS SQL, ИПС «Артефакт» (разработка информационного агентства Интегрум-Техно), а также программные средства «Электронного архива (ЭА) ЦНСХБ» (разработка Cognitive Technologies). ЭА предназначен для комплексного решения задач ввода, обработки, централизованного хранения и отображения книг, журналов и других печатных документов, а также для хранения и поиска информации, представленной в виде электронных документов (тексты, графические образы, мультимедийная информация).

Назначением системы является организация системы ввода, хранения и доступа к электронным копиям первоисточников, образующим электронный архив и решаются следующие задачи:

  • ввод (включая потоковый ввод) и редактирование данных, полученных путем сканирования документов;

  • ввод и редактирование данных, полученных из автоматизированной библиотечно-информационной системы ЦНСХБ (АБИС);

  • реквизитная и/или полнотекстовая индексация всех хранимых материалов, включая пакетный режим индексирования;

  • хранение и предоставление доступа в локальном режиме и в сети Интернет к материалам, составляющим ЭА;

  • разграничение доступа для разных категорий пользователей;

  • вывод данных по запросу для электронной доставки копий первоисточников пользователям.

Система ориентирована на работу с документами типа книжных блоков (многостраничные документы) и обеспечивает:

  • Формирование нескольких ЭА, обычно объединяющих однотипную информацию (книги, журналы, редкие книги, карты и т.п.);

  • Импорт экспортированного из АБИС файла, содержащего первичную информацию о документах, которые требуется занести в Систему.

  • Первичную регистрацию документов в Системе на основе данных АБИС.

  • Сканирование документов в потоковом или единичном режиме. При этом осуществляется идентификация документов (для каталожных карточек – порции документов, обычно ящиков). Сканирование осуществляется с книжного сканера, протяжного сканера(ов) или планшетных сканеров. Возможен ввод изображения документа или мультимедийной информации из компьютерных файлов.

  • Распознавание документов, формирование необходимых информационных данных о документе осуществляется в процессе работы с документом и с нескольких рабочих мест.

  • Индексирование документов производится автоматически на основе заполненных информационных карт и в соответствии с заранее задаваемыми таблицами.

  • Отображение документов при поиске осуществляется в соответствии с категориями пользователей.

  • Поиск производится по всем реквизитам и/или по полному распознанному тексту документа.

  • Система обеспечивает экспорт документа в заданных форматах для использования в системе электронной доставки, выставлении документа на Web-сервере ЦНСХБ или для передачи пользователям на машиночитаемых носителях.

Последующее преобразование осуществляется в технологическом цикле формирования ресурсов СЭБиЗ.

Информация для загрузки в ИПС и последующего отображения представлена в формате HTML и включает тексты, рисунки, фотоматериалы, аудио материалы.

Полные тексты документов структурируются и обеспечиваются гиперссылками.

СЭБиЗ формируется как совокупность баз данных. Разработчики предполагают, что динамика изменений библиотеки (т.е. изменения в уже подготовленных документах) происходит редко, поэтому для обеспечения полноценного и быстрого поиска все данные преобразуются в базы данных ИПС Артефакт. Эта система характеризуется следующими основными параметрами:

  • система рассчитана на работу с полнотекстовыми базами данных;

  • объем каждого документа практически не ограничен;

  • объем баз также практически не ограничен. При этом время поиска мало на гигабайтных объемах баз;

  • поиск может вестись одновременно по многим данным;

  • поиск осуществляется с учетом морфологии русского и английского языков. В поисковом предписании, возможно, использовать, операторы И, ИЛИ, НЕТ, скобочные конструкции, правостороннее усечения, операторы соседства и порядка слов в предложении;

  • имеются операторы поиска по данным типа «дата».

Проект предусматривает интеграцию информационных ресурсов ЦНСХБ (электронных каталогов книг, журналов, статей, авторефератов и т.п., а также полнотекстовой базы отчетов) в единый интерфейс СЭБиЗ. Разработаны необходимые модули и интерфейсы.

В связи с разнообразием структуры документов: энциклопедии, справочники и словари; книги в дореформенной (1918 г) орфографии; книги и журналы современной орфографии, были разработаны технологии ввода и разметки документов.

Разработан механизм и программные средства для формирования на основе отсканированного, распознанного и проверенного (с формированием словаря незнакомых терминов и слов) текста документов по каждой статье словаря с необходимыми гипертекстовыми ссылками, для объединения отдельных фрагментов документа и его частей (текста, рисунков и других графических материалов), подготавливаемых различными исполнителями на разных устройствах сканирования, в один документ с последующей загрузкой в базу данных.

Распознавание текстов осуществляется системой FineReader v.5.0, которая, в частности, для документов дореформенной орфографии позволяет провести обучение системы букв «ять», «и десятичное», «фита» и слов в дореформенных грамматических формах. Это обеспечивает создание полнотекстовых документов в современной орфографии для качественной работы поисковой системы.

Поиск обеспечивается по полному тексту документов, при этом пользователь может на основании полученного результат просмотреть оригинальный текст в формате PDF или другом (tiff, jpeg).

В СЭБиЗ вошел раздел среди информационных ресурсов «Новости сельского хозяйства».

В заключение отметим, что создание СЭБиЗ – это создание электронной библиотеки знаний, обеспечивающей ученых и специалистов в области сельского хозяйства, необходимым набором справочных данных, сведениями о наиболее актуальных проблемах и основополагающих документов в этой области.

Скачать 56.43 Kb.
Поиск по сайту:



База данных защищена авторским правом ©dogend.ru 2019
При копировании материала укажите ссылку
обратиться к администрации
Уроки, справочники, рефераты