Сайт Информационных Технологий

ДОКУМЕНТАЛЬНОЕ ХРАНИЛИЩЕ НА WEB

В.А. Волчок

Гродненский Государственный университет

Лаборатория информационных технологий и системных исследований

230015, Республика Беларусь, г. Гродно, БЛК-5, к. 312

тел. +375-(152)-33-05-36, Факс: +375-(152)–44-84-61, E-mail: wwa@grsu.grodno.by.

Abstract- Are considered the methodological approach and practical realization the Document Warehouse on WWW, FTP and Data Base Servers. The integrated components the Document Warehouse because of Оbject Management Architecture (OMA), Common Object Request Broker Architecture (CORBA) and using information technologies are resulted.

В ближайшие десять лет хранилища данных на Web составят основу планов большинства организаций. Обращение к технологиям Internet/Intranet, а точнее к Web технологиям, обусловлено в первую очередь более низкой стоимостью управления и внедрения приложений, легкостью в применении, а также возможностью создания простого в использовании пользовательского интерфейса на основе Web-браузера. Концепция "стратегического окружения", позволяет разработчикам строить ODBC (Open Database Connectivity)-подобные интерфейсы для множества платформ, как бы "погружая" существующие приложения в среду Internet и создавая тем самым удобную графическую оболочку для пользователей. Пользователи получают доступ к информации и приложениям с помощью любого Web-браузера практически одинаково независимо от того, на какой платформе они работают.

Кроме того, благодаря высокой степени интеграции хранилищ данных с существующими информационными системами, организации и фирмы могут добавлять хранилища данных на Web в существующие сети, где на внутренних серверах располагаются базы данных, на серверах промежуточного слоя - прикладные системы, а персональные или сетевые компьютеры пользователей содержат средства доступа.

Очевидно, что технологии хранилищ данных весьма дорого стоят и могут быть внедрены только крупными организациям. Красивые и эффективные, но высокостоимостные ”решения под ключ” предоставляют фирмы Oracle(Data Warehouse Engine, Oracle SQL Loader, Oracle Advanced Data Replication, Oracle Discovery/2000, Oracle Parallel Server, CDE Case, Oracle System Manager), NCR, IBM(все продукты поддерживают единый интерфейсный стандарт IBM Information Warehouse Architecture), Sybase, Informix, Intersolv(INTERSOLV Virtual Data Warehouse ).

Учитывая высокие требования, предъявляемые к качеству программно-аппаратных решений хранилищ данных (масштабируемость, мобильность, переносимость, надежность, безопасность, модульность, функциональная полнота, гибкость, прозрачность, удобство администрирования), а также специфику хранилища документов (формы, шаблоны, таблицы) и возможность реальной практической реализации (технологии Microsoft, Adobe, Oracle), были определены следующие основные черты хранилища документов: ориентация на объекты, интегральность данных, инвариантность, стабильность информации.

Программно-технический комплекс хранилища документов (рис.1) представляет собой элемент корпоративной сети, включающий WWW сервер, сервер БД и файловый сервер, совмещенный с сервером приложений.

В основе управления хранением документов принято фундаментальное правило хранения информации: данные находятся в сохранности только тогда, когда они хранятся более чем на одном носителе и более чем в одном месте.

Рис.1. Программно-технический комплекс хранилища документов

Ядром хранилища документов можно считать технологии индексирования и поиска. В настоящее время следует выделить несколько направлений в реализации методов поиска. Первое направление относится к классу традиционных информационно-поисковых систем, основанных на атрибутном поиске структурированных данных. Альтернативное направление базируется на принципе полнотекстового индексирования неструктурированных данных.

В настоящее время на первых этапах реализации хранилища документов используется наиболее распространённый метод контекстно-независимого индексирования - индексация на базе инвертированной матрицы, представляющей собой своеобразный кодификатор хранимых документов, в котором нормализованным словоформам ставятся в соответствие адреса документов. Рассматриваются варианты и технологии применения систем бинарной индексации с нечётким поиском документов.

Для того чтобы решить проблемы, связанные с доступом к хранилищу документов на Web, требуется сочетание "толстых" и "тонких" типов клиентских приложений.

Программное обеспечение клиента включает ПО сервера приложений и сверхтонкого клиента. Сервер приложений, созданный на базе Active Server Page технологии, обеспечивает функционирование сверхтонкого клиента - обрабатывает запросы, перенаправляет их к серверу БД и формирует статическую html страницу, отображающую полученную выборку данных.

Сверхтонкий клиент представляет собой интерфейс в виде информационно-поисковой системы (ИПС), работающий под управлением стандартных Web-браузеров, функционирующих в различных операционных системах (ОС), а также на различных аппаратных платформах (IBM, HP, DEC, Sun, Seguent и т.д.) в единой информационной системе.

Таким образом, поиск документов строится на основе принципа QBE (Query By Example), т. е. для того, чтобы найти документ, пользователь заполняет структурированные поля экранной формы ИПС, вводя ключевые слова или название документа. В ответ на запрос система выдает список документов в трёх форматах HTML, RTF и PDF в соответствии с введёнными данными и правами доступа пользователя.

Адоптация сверхтонких клиентских мест к требованиям различных групп пользователей происходит за счёт контроля за доступом к Web серверу и серверу БД.

Администрирование включает в себя: применение масштабируемых серверов (секционирование обработки и распределение загрузки хранилища; конфигурирование компонентов, распределение расширений plug-in среди пользователей при сопровождении тонких клиентов, резервное копирование, многоуровневый авторизованный доступ) и поддержание чистоты данных (верификация данных, управление документами с истёкшим сроком хранения).

Электронное хранилище документов обеспечивает выполнение следующих функций: сканирование; создание электронных документов; индексирование документов; оперативный поиск и отображение документов; управление функционированием системы; обеспечение функционирования разнотипных компьютеров, работающих под управлением различных операционных систем (ОС); скоростная обработка информации в сетевой среде; подготовка гипертекстовых баз данных; оперативное внесение изменений в базы данных; обеспечение доступа к информации различных категорий пользователей за счёт WWW интерфейса; обеспечение контроля наполнения, целостности данных и многоуровневого доступа к информации; создание витрин данных; виртуальное складирование данных; анализ документов с возможностью дальнейшего прогнозирования (OLAP); быстрая адаптация к изменению программных и технических средств; совместимость использования различных аппаратных платформ; высокую надежность и бесперебойную эксплуатацию за счёт резервного копирования и кластерной архитектуры.

Для реализации указанных функций хранилище документов включает подсистемы: ввода, хранения, индексирования, поиска и отображения информации, анализа, управления потоками, администрирования, програмно-технического сопровождения.

Использование приложений клиент-сервер совместно с Web-серверами и браузерами требует тщательного планирования и разработки с применением необходимого инструментария.

 

 

 

Рис.2. Интегрированные компоненты хранилища документов.

С целью обеспечения независимости от устройств и конкретных технологий используется модель IEEE (The Institute of Electrical and Electronics Engineers), обеспечивающая способность восприятия новых вариантов информационных технологий и возможность перехода к более прогрессивным информационным носителям. Модель включает следующие уровни абстракции: битфайл (bitfile), битфайл-клиент, битфайл-сервер, сервер имён (name server), сервер хранения (storage server), хранилище физических томов (physical volume repository), менеджер узла (site manager)

Проводя работы в рамках Архитектуры сетевых вычислений (NCA -- Network Computing Architecture) разработка документального хранилища осуществляется в направлении совместимости со стандартом CORBA (рис.2), обеспечивающего интеграцию распределенных многослойных объектно-ориентированных приложений клиент-сервер с Web-приложениями.

В перечень стандартных для хранилища документов операций преобразования и интеграции данных входят: загрузка документов из разных источников; консолидация документов; проверка и фильтрация документов; определение метаданных; агрегация документов; определение документов, зависящих от времени; мониторинг параметров хранилища документов.

Реализованный в настоящее время проект хранилища документов обеспечивает выполнение основных функций за исключением анализа документов (OLAP) с возможностью дальнейшего прогнозирования и организации высоконадёжной кластерной архитектуры.

Моделирование структуры комплекса технических средств, инвариантных компонентов электронного хранилища документов и структуры баз данных проводилось с использованием средства Oracle DESIGNER/2000, Oracle System Sizer, MATLAB, SIMULINK.

Необходимо учитывать тот факт, что построение хранилища документов - дело сугубо индивидуальное. Каждая организация уникальна и требует учета специфики работы, степени ее автоматизации, имеющегося парка технических средств, квалификации специалистов и, наконец, платежеспособности.

Кроме того, процесс построения хранилища документов и его подключения к Web постоянно меняется. На каждой стадии необходимо использовать наиболее точно определенные обратные связи с пользователями, применять новые инструменты, методики и возможности, появляющиеся в ходе эволюции Web-технологии; расширять сферу применения хранилища документов. Поэтому, на всех этапах проекта следует стремиться к максимально возможной гибкости.

Создание хранилища документов не является самоцелью, и в этой связи на последующих этапах реализации проекта особую важность приобретает обеспечение эффективного использования существующих документов с применением интеллектуальных средств их анализа и представления.

Литература

1. Voltchok V. Influence of Systems Data Mining to Extension of the Incomes of Banks. Proceedings of the International Conference ”Changes in the Financial System in the 1990’s - CASE Studies of Selected European CountriesThe University of Finance and Management in Bialystok, Bialystok. 1999. p.48-54.

2. Волчок В.А., Крышалович Ю.И. Организация информационного хранилища по ресурсосберегающим технологиям и доступа к базам данных в Internet. Тезисы докладов III научно-технической конференции ”Ресурсосберегающие и экологически чистые технологии”. Гродно, Национальная академия наук Беларуси. 1998. - с.41-42.

3. Voltchok V. Forming of Information Resources of the Regional Information Analytical System. Proceedings of the International Conference ”Soft Computing and Measurements”. Russian Academy of Sciences .St. Petersburg. 1999. V.2. p.184-191.

4. Михайлов А., Кабанов А., Бугаева Т. Электронный Архив финансовых и организационно-распорядительных документов Евфрат для Oracle.- www.cgntv.dol.ru

5. Громов А.И., Каменнова М.С., Старыгин А.Н.. Создание корпоративного электронного архива и реорганизация бизнес-процедур компании. Системы Управления Базами Данных # 3/96 стр. 84-94

6. Immon W.H. Building Data Warehouse. John & Sons, Inc. 1996.

7. Марков А. Концепция построения электронного архива. Открытые системы #1/97 стр. 54-58

8.Хранилища данных в сети Web. Русское издание ORACLE MAGAZINE - №4 1997г

9. Kurz A., Tjoa M. Integrating Executive Information Systems and Data Warehouses. Institute of Software Technology (IFS). Austria.1997.

10. Kimball R. The Data Warehouse Toolkit. Practical Techniques for Building Dimensional Data Warehouses. John Wiley & Sons Inc., 1996, ISBN: 0-471-15337-0.

11. Watson H.J., Houdeshell G., Rainer R.K. Building Executive Information Systems and other Decision Support Applications. John Wiley, New York, 1997, ISBN: 0-471-06930-2, 479 pp.

12. Kurt C. Wallnau, Paul Clements. Decision Frameworks for System Modernization: A Case Study. Software Engineering Institute, Carnegie Mellon University. 1996.

13. B. Meyers C., Plakosh D., Place P., Klein M., Kazman R. Assessment of CORBA and POSIX.21 Designs for FAA En Route Resectorization. Carnegie Mellon University, Software Engineering Institute. SPECIAL REPORT, CMU/SEI-98-SR-002. April 1998.-254p.

14. CORBA. OMG TC Work in Progress. http://www.omg.org/index.html.


Site of Information Technologies
Designed by  inftech@webservis.ru.