Сайт Информационных Технологий

РАЗВИВАЮЩИЕСЯ ИНТЕГРИРУЮЩИЕ СЕТИ

НА ОСНОВЕ РЕГУЛЯРИЗИРУЮЩЕГО БАЙЕСОВСКОГО ПОДХОДА

С.В. Прокопчина

Санкт-Петербургский государственный электротехнический университет “ЛЭТИ” им. В.И.Ульянова (Ленина)

Abstract — The new class of the integrant information technologies – Bayesian Inregrant Technologies (BIT) for various types of data and knowledge integration, based on the Regularizating Bayesian Approach and methodology of Bayesian Intelligent and Soft Measurement, is suggested. Parametrical (for data integration), functional (for models integration), multy-factors (for recognition and interpretation of the situations) BIT as well as metrological aspects of obtaining decisions and possibilitive ways to decisions risk control are considered .The analytical equations for these types of BIT on concept level are given. The “probability-possibility” integrant technologies , features of BIT for models integration, making decisions under conditions of great a priory uncertainty on the basic of BIT, definition of the situations and main influence factors are discussed. BIT-versions for integration of the perspective information technologies and distributed information recourses, as well as version of the “active” INTERNET technology – BIT-INTERNET for distributed decisions support systems (DSS) are briefly considered.

Стало доброй традицией сообщать на ежегодных конференциях по мягким вычислениям и измерениям о новых методах, технологиях и системах, построенных на основе байесовского регуляризирующего подхода (РБП) и используемых в самых разных прикладных задачах, от мониторинга состояния компонентов экосистем до аудита предприятий и маркетинга.

В прошедший после конференции SCM-99 период были разработаны на базе байесовских интеллектуальных измерений (БИИ) и байесовских интегрирующих технологий (БИТ) и использованы на практике информационно-аналитические распределенные системы для различных приложений, реализована их суперкомпьютерная версия на платформе UNIX и высокопроизводительных средствах SUN SOLARIS, а также средства мультимедийной визуализации сетевых решений (БИТ). Такие системы , наследуя основные принципы БИИ и БИТ, (а именно, интегрирование разнотипных потоков данных и знаний, метрологическое обоснование и возможность управления качеством решений, гибкость и развиваемость в процессе функционирования), в совокупности с перспективными информационными технологиями сетевой передачи, сбора и распределенной обработки информации представляют собой новый тип систем, названный байесовскими интегрирующими сетями (БИС).

Необходимость разработки БИС была обусловлена с одной стороны требованиями практических задач, (как правило, решаемых в условиях значительной априорной неопределенности) по обобщению и использованию всего имеющегося объема информации, с другой стороны, возможностями получивших активное развитие современных сетевых технологий, позволяющих собирать на серверах значительные массивы разнотипных информационных ресурсов (например, TAMINO , разработанный компанией Software AG) , новых стандартов и языков (например, XML) для унификации и расширения документальных представлений такой информации, а также технологий распределенной обработки (например, CORBA). Однако, несмотря на развитые возможности по передаче и хранению числовой, текстовой, графической, аудио-, видео – и другой информации, во всех современных серверных технологиях отсутствует возможность свертки такой информации , ее интеграции в единый информационный поток, несущий максимально достоверные и полные знания об объекте или его свойствах в конкретных условиях. Это касается не только разнотипных , но и однотипных, но разноточных данных. Такие причины практически не позволяют использовать всю имеющуюся информацию при получении решений, а также методы обработки, требующие достаточных по длине реализаций (как, например, практически все вероятностно-статистические методы для определения функциональных характеристик случайных величин и процессов или проверки гипотез). Это, естественно, снижает качество результатов обработки (особенно, распределенной) и не обеспечивает реализацию преимуществ новых технологий и стандартов.

Кроме того, в известных сетевых технологиях, нет, не только возможности управления качеством получаемых на их основе решений, но и контроля, метрологического обоснования поступающих и хранящихся на сервере данных, что при естественной неопределенности данных и знаний и связанной с этим некорректности информационных задач, не позволяет определять или гарантировать устойчивость, сходимость и достоверность (риск) получаемых решений. Иными словами, отсутствие принципов измерительного подхода в информационных технологиях современной распределенной обработки данных приводит к невозможности их эффективного использования для решения значительного круга задач экологии, экономики, природопользования, управления, маркетинга.

Заметим также, что в реальных условиях мониторинга или управления динамическими объектами, возникает необходимость адаптации технологий и структур сетей к меняющимся свойствам объекта и окружающей его среды, их развитию в соответствии с развитием объектов. В такой постановке возникает задача оптимизации технологий и структур сетевой обработки информации в ходе эксплуатации систем, что означает необходимость разработки и применения мета технологий самоорганизации, адаптивного изменения топологии сети, динамичного формирования круга клиентов (“толстых” и “тонких”) , серверов, “субсерверов” и “гиперсерверов” , распределения функций между ними и их интеллектуализации.

В данном докладе предлагается концепция байесовских интегрирующих сетей (БИС), в значительной мере реализующих вышеуказанные требования,

Методологическая база БИС

Методология РБП, алгоритмическая база БИИ и БИТ послужили основой для создания методологической базы БИС.

Методология прямых БИИ на однородных трехзвенных шкалах с динамическими ограничениями (ШДО), (иначе, прямых БИИ ) составляет основу технологии интеграции однотипных разноточных потоков информации (например, свертку результатов измерений поступающих и хранящихся в архиве (базе данных) или свертку результатов измерений одного и того же параметра на разных по точности приборах).

Концептуальная запись уравнения прямых БИИ в рамках теории множеств может быть представлена следующим образом:

(1),

где S - системы одномерных параметрических ШДО, представленных множествами реперов H, на носителях шкал;{МХ} - комплексы метрологических характеристик (КМХ), определяющих качество данных : их точность, достоверность, полноту, четкость и тому подобное; * - символ байесовской свертки по РБП.

Свертку разновременных однотипных разноточных или равноточных данных производят согласно уравнения:

(2),

где x - массив данных или значение в момент времени t с КМХ {МХ}.

Разнотипные (например, числовая N и лингвистическая информация L) по методологии БИИ сворачиваются на сопряженных ШДО.

(3)

Дополнительная информация об объекте параметрических БИИ, содержащаяся в данных и знаниях о другом объекте, может быть извлечена из них путем применения шкалы связности или ШДО влияния. При этом могут быть использованы различные правила Ф извлечения алгоритмических знаний, представляющие собой одну функциональную зависимость , алгоритм, методику, информационную технологию (известные системы DATA MINING, основанные, в основном, на комплексе вероятностно-статистических методов и критериев) или их совокупность. Такого рода интеграция основана на косвенных параметрических БИИ (ПБИИ).

В зависимости от вида правил извлечения знаний среди косвенных ПБИИ различают простые и комплексные косвенные ПБИИ, на основании которых уравнение для интеграции дополнительной информации с данными прямых БИИ может быть записано в следующем виде: (4),

где Ф(x) - результаты извлечения информации из потока данных X с помощью правила Ф или комплексной технологии *Ф и {MX} - их КМХ , характеризующие трансформированную погрешность косвенных измерений.

Таким образом, интеграция одномерных (касающихся только одного определяемого параметра по всей совокупности информации) потоков данных согласно (1)-(4) производится в соответствии с уравнением:

(5)

Отметим, что уравнение (5) отражает процесс интеграции данных Х и знаний Ф на основе РБП, что позволяет, например, согласовать данные и расчетную модель для обеспечения устойчивости и сходимости в условиях значительной неопределенности данных

Результаты интеграции представляются в виде совокупности альтернативных значений параметра, каждое из которых характеризуется своими значениями показателей КМХ.

Таким образом, результат интеграции нечетких данных *х представляется нечетким значением на шкале S .

Интеграция многомерных данных производится согласно (1)-(5) согласно уравнения:

(6),

где Si шкалы параметрических , функциональных или системных БИИ.

Отметим, что определение гипершкалы S связанности факторов Х также реализуется на основе БИИ и БИТ в соответствии с интегрирующим концептуальным уравнением:

(7),

где r(x,y),b (x,y),F(x, y),T(x,y) - технологии определения коэффициентов корреляции, коэффициентов уравнения множественной регрессии, результаты генерации правил в системах DATA MINING, данные таблиц влияния в нечеткой форме, результаты технологии определения периодограмм.

Важным свойством технологии (7) является возможность работы на разных иерархических уровнях с факторами или их свойствами , разнородными по своей сути, но составляющие в целом интегральный фактор или комплексный показатель.

(8)

Таким образом, следуя технологии (8), можно вводить дополнительную информацию для факторов и показателей любого уровня сложности или считывать ее с различных уровней обобщения. Это позволяет применять такие технологии для формирования и определения значений различных индикаторов и индексов для оценки состояния, качества среды , объекта или их отдельных компонентов, передавать информацию или получать решение в максимально сжатом варианте представления, что повышает его эффективность для практики. Как известно, индикаторы и индексы определяют основные экономические,

социальные и экологические аспекты развития общества, включая развитие рынков, инфраструктуры производств, природные и антропогенные процессов в региональной экосистеме и другие. Применяемые сопряженные шкалы при этом обеспечивают передачу решений с уровня на уровень в безразмерном виде с требуемым масштабированием носителя шкалы.

Интеграция знаний, в том числе и алгоритмических, реализуется на основании функциональных и системных БИИ. Свертка производится на функциональных ШДО , а результатом такой интеграции являются функциональные зависимости или алгоритмические знания. Примером такой интеграции может быть БИТ определения типа закона распределения (плотности вероятности) на основании свертки двух параметрических шкал коэффициентов асимметрии и эксцесса. На рисунке 1 приведены результаты двумерной байесовской свертки на функциональной ШДО в виде двух альтернатив о типе закона распределения.

Рис.1. Мультимедиа: 2-х модальный закон распределения.

Данная технология используется при определении компонент байесовского решающего правила по экспериментальным данным.

Интеграция и синтез технологий основаны на интеграции данных и знаний на параметрических, функциональных или системных ШДО и может быть произведена согласно следующему концептуальному уравнению:

(9)

Уравнение (7) отражает концепцию БИТ.

На основании уравнения (7) синтезирована интегрированная технология наращивания выборочных данных для малых выборок. Как известно, практически все системы DATA MINING, использующие для формирования правил и регрессионных моделей вероятностно-статистические критерии, требуют для своего использования значительный объем выборочных данных, однако при многофакторной ситуации таких объемов для всех компонент множественной регрессии обычно не бывает. Предлагается использовать интегрированную технологию DATA MINING на основе БИТ, представленную в виде уравнения:

(10)

Технология наращивания выборки, удлиняя реализацию случайной величины или процесса, создает возможность для правомерного применения вероятностно-статистических методов, требующих значительных по объему выборок.

Все вышеперечисленные интегрированные технологии относятся к интегрированным технологиям байесовской математической статистики. Методы и алгоритмы байесовской

статистики в самом широком спектре разрабатываются и интегрируются в виде технологий в настоящее время в институте “БИТИС “на основе вышеуказанных БИТ-уравнений.

Данное направление является новым для таких систем и эффективным для работы с малыми

выборками, сильно зашумленными данными, значительной априорной неопределенностью. Универсальная технология синтеза алгоритмов байесовской статистики может быть записана следующим образом:

(11),

где Х - интегрированный информационный поток.

Параллельные БИИ и БИТ (суперкомпьютерные технологии) реализуются на основе концепции параллельных ШДО в виде:

(12),

где E - символ распараллеливания обработки на ШДО для к-тых параллельных ветвей вычислений, для которых реализуется отдельная байесовская свертка.

Информационные аспекты БИС

Байесовские сетевые технологии

Специфика БИС, раскрытая выше, определяет следующие дополнительные элементы сетевых технологий. Во-первых, это наличие в структуре сети байесовских интеллектуальных серверов, которые сочетают свойства информационных серверов и серверов приложений, осуществляя на формальном математическом уровне интеграцию потоков данных и знаний, синтез технологий с метрологической поддержкой согласно выражениям (1)-(12) , аналитические процессы обработки данных по оценке состояний и ситуаций, их прогнозированию и генерации решений по запросам клиентов. Во-вторых, это наличие метаданных (в виде ШДО). В третьих, наличие мета технологий, осуществляющих управление развитием структуры сети по результатам работы предыдущих этапов реализуемой информационной технологии.

Для простоты синтеза технологий и автоматизации этого процесса базовые уравнения (1)-(12) реализованы в виде отдельных компонентов с соблюдением стандартов

Метрология байесовской интегрирующей сети дает возможность в ходе эксплуатации сети управлять качеством получаемых решений на каждом этапе работы сети, выявлять “узкие” места, где происходит приток информации со значительными искажениями, шумами, но и корректировать технологию и список клиентов – источников информационных ресурсов, спланировать информационный эксперимент.

На информационной основе БИТ построены ГИС сети и системы с аналитикой: Интеллектуальные ГИС, которые кроме вышеуказанных свойств, обладают еще возможностями пространственной ориентации решений, полученных выводов и рекомендаций в качестве атрибутов.

Все данные и знания представлены в форматах современных INTERNET-технологий, например, XML, что позволяет задействовать архивные разнотипные документы (сервер ТАМИНО). Активно реализуется работа с таким сервером при партнерстве нашей организации с компанией SOFTWARE AG.

ШДО и гипершкалы состояний и взаимосвязи как документы XML позволяют унифицировать и обеспечить надежность и технологичность сетевых блоков.

Разработана технология свертки с учетом мнений эксперта по данным в форматах XML.

В настоящее время функционируют БИС на сервере приложений Байконур.

Рис.2. БИС на сервере приложений Байконур.

Распределенная обработка и вышеуказанные технологии подробнее освещены в докладах данной конференции, посвященных методологии и применению РБП, интеграция приложений на базе БИТ/БИС - DATA MINING различных типов.

Распределенная обработка данных на базе БИС дает возможность реализовать мультимодельный принцип, позволяющий реализовать расчеты по ряду моделей одновременно, а затем свернуть полученные результаты для повышения качества решений.

“Толстый” байесовский клиент – это интеллектуальный клиент, который выполняет свертку по схемам (1) – (5), интегрирует данные, перекачивает не только результаты, но и приложения, выполняет их и сворачивает результаты, выдавая интегрированное решение.

специфицирует и типизирует ситуации и знания о самом себе, составляется образ клиента, интегрирует требования, в том числе и нечеткие, можно и видео Пример подобной БИС реализован для задачи электронного бизнеса и электронной торговли. Генерация правил оптимизации выбора товара реализована на основе технологий РБП.

Сообщество клиентов составляется. Развивается, самоорганизуется на метрологической основе.

Тонкий клиент – тонкий байесовский клиент, требует ответ с характеристиками качества, интегрирует требования. Представляет их в формате XML в нечеткой форме.

Таким образом, БИС - это самоорганизующиеся, развивающиеся сети на основе БИТ-решений, осуществляющие

управление качеством решений, выявление мест повышения энтропии,

генерация рекомендаций по развитию структуры сети (дополнению, свертке, структуризации – формировании подуровней сети с подсерверами приложений и информационными), планирование эксперимента в ходе мониторинга ситуаций и решающие прикладные задачи широкого спектра.

Интересный результат получен при интеграции БИТ и технологий мультимедиа.

Мультимедийные технологии, создавая виртуальную реальность, позволяют наглядно отображать гиперобразы ситуаций и процесс их развития,

Используются элементы когнитивной график для диалога с пользователем и извлечения знаний из него, для интегрирования косвенной информации – данные и знания пользователем извлекаются самостоятельно после просмотра видеоинформационных массивов и сворачиваются на шкалах ШДО, для формирования дальнейшей технологии обработки данных.

На рисунке 3 приведен экран с интерпретацией ситуации в многомерном пространстве факторов при мультимедийной интерпретации системной ШДО и когнитивном отображении состояния совокупности факторов. При этом, быстро реагируя на ситуацию, пользователь выступает в роли активного источника информационных ресурсов (агента), его решения влияют на синтез технологий и структуру сети.

Рис.3. Система мультимедийной интерпретации.

ПРИКЛАДНЫЕ ТЕХНОЛОГИИ БИС

Сферами реализаций БИС-технологий являются охрана окружающей среды и природопользование.

Одно из важнейших приложений - создание БИС для электронных библиотек топливно-энергетического комплекса Российской Федерации совместно с организацией РОСНЕФТЕГАЗСТРОЙ.

В пилотных проектах, выполняемых для организации Газпром реализованы задачи создания на основе БИТ, БИС, в которых база измерительных знаний интегрируется с базами данных, методик и базами алгоритмических и декларативных знаний

Созданы БИС для экоаудита, генерации экополитики, разработаны тренажерные технологии, осуществляющие локальный и дистанционно распределенный трансфер знаний.

Построены ряд БИС для реализации маркетинга, мониторинга рынка и принятия решений о ценовой и производственной политике предприятий.

Рис.4. Система Информ-Молоко.

Средствами БИС осуществляется контроль качества продукции и услуг, поиск инвестора, защиту прав потребителя, электронная коммерция.

Таким образом, уже существующие баейсовские интегрирующие сети дают полное решение и в бизнесе и в управлении производственными объектами и процессами ситуациями и в устойчивом развитии регионов.

Литература

[1] Недосекин Д.Д., Прокопчина С.В., Чернявский Е.А. Информационные технологии интеллектуализации измерительных процесов. СПб.: Энергоатомиздат, 1995. 187 с.

[2] Прокопчина С. В. Организация измерительных процессов в условиях неопределенности. Регуляризирующий байесовский подход. СПб. Сборник докладов Международной конференции по мягким вычислениям и измерениям SCM-98, 22-26 июня 1998, т.1 с.30-44.

[3] Прокопчина С. В. Байесовские интегрирующие технологии на основе интеллектуальных и мягких измерений. СПб. Сборник докладов Международной конференции по мягким вычислениям и измерениям SCM-99.


Site of Information Technologies
Designed by  inftech@webservis.ru.