ЗАДАЧА СТРУКТУРИЗАЦИИ ДАННЫХ В КОНЦЕПЦИИ ДИНАМИЧЕСКОГО ОБЪЕКТА

V.M.Latchinov

Russia, Saint-Petersburg, SPIIRAS

THE PROBLEM OF DATA STRUCTURIZATION IN THE CONCEPT OF DYNAMIC OBJECT

The maximum generalization of the problem of general data structurization is considered. For systems capable to structure such data independently the general laws and metarules of their design are considered, the conditions of physical feasibility are established.

В.М.Лачинов

Россия, Санкт-Петербург, СПИИРАН

ЗАДАЧА СТРУКТУРИЗАЦИИ ДАННЫХ В КОНЦЕПЦИИ ДИНАМИЧЕСКОГО ОБЪЕКТА

Рассматривается максимальное обобщение задачи структуризации данных общего вида. Для систем способных самостоятельно структурировать такие данные рассматриваются общие законы и метаправила их устройства, устанавливаются условия принципиальной и физической реализуемости.

Обобщение задачи структуризации

Адекватность постановки обобщенной задачи структуризации требует помнить о том, что задачи фильтрации, классификации, распознавания сообщений и управления от сообщения по сути своей фактически являются одной задачей. Эта задача выделения структуры, которая содержалась в сообщении, различны только ограничения и уровень “силы” или “слабости” априорных предположений. Здесь предпочтительнее оперировать не термином “сигнал”, но более общим – “сообщение”, в частности и для того, чтобы не впасть в “сигнальную” парадигму распознавания и управления [1]. Если в задачах фильтрации и классификации еще можно говорить о некоторой адекватности “чисто сигнальной парадигмы”, то в управлении (кроме как в кибернетических моделях) это совершенно недопустимо. “Количество сигнала”, т.е. знаков, байтов, битов совершенно несопоставимо ни с “количеством информации”, ни с ее управляющим действием.

Вся история цивилизации, множество примеров в социальных, экономических и политических системах дают нам однозначный ответ – в сложных (системно, по ОТС сложных, “больших”) системах ни о какой “сигнальной” парадигме говорить просто недопустимо. Рассмотрим всего два примера, выбранные по той причине, что им посвящено гигантское количество исследований, исключающее потери и искажения фактов и неоднозначное толкование.

По данным экономических исследований крах биржи и “великий кризис” в США “набрал обороты” и окончательно перешел в неконтролируемую фазу (неконтролируемую, не то что неуправляемую) когда об истинном состоянии экономики еще не знали более 90% биржевых маклеров и около 99% крупных инвесторов. При тех средствах коммуникации и представления “данных об экономике как целом” это было просто невозможно физически в сроки менее 3-4 недель. Т.е. фактически наличествовало только “пусковое сообщение” – “происходят крупные неприятности”. Более подробной информации никто просто не успел получить и тем более проанализировать.

Второй пример – начало первой мировой войны. Опять сработало только “пусковое сообщение” об убийстве эрцгерцога и объявлении Австро-Венгрией войны Сербии. Если бы хотя бы один из Генштабов: Русский, Германский или Французский проанализировал информацию о военном и экономическом значении двух “зачинателей мировой катастрофы” и сопоставил со стоимостью своих планов и геополитики, то войны просто не было бы и все теории передела мира и экспансии немецкого империализма были бы выброшены не помойку еще до их рождения. Слишком несопоставимы были “геополитический вес” зачинщиков и планы передела мира той же Германии (так же как и уже вложенные инвестиции в эти планы). Просто никто не анализировал ситуацию и не делал разумного выбора кроме буквально нескольких на все страны политиков, чьи голоса “задавили шумом”. Но если иметь минимальное представление об армейской дисциплине и бюрократии тех времен, о порядке прохождения бумаг, то абсолютно ясно, что никакой анализ и не был возможен, объективные данные об истинной ситуации просто не успели дойти по инстанциям до аналитиков Генштабов.

Не было никакого анализа, оценки ситуации и управления в истинном информационном смысле, были эмоции, “пусковое сообщение” о факте конфликта и было использование “домашних заготовок” предназначенных совсем для других “дебютных розыгрышей”. Или можно обозначить ситуацию по-другому: - не было фактов распознавания ситуации и выработки управляющей информации, сработала чисто сигнальная парадигма управления, “сигнал к началу драки”. Впрочем, если рассмотреть с этой позиции любой другой экономический или политический конфликт, потрясение из тех, про которые написано много и подробно, то обнаружим ровно ту же самую ситуацию.

Здесь совсем не об оценке “хорошо - плохо”, каковы были политики и аналитики, но исключительно о сугубой неэквивалентности сигнальной и информационной парадигм. Более того, можно высказать гипотезу – начиная с некоторого уровня сложности системы сигнальная и информационная парадигмы в некотором смысле “диаметрально противоположны”. Т.е. попытка управлять такими системами только с помощью сигнала обратной связи неизбежно приводит к катастрофе. Но тогда возникает вопрос – в чем же общность задач? Почему все они “одна и та же задача”?

Во-первых, мы должны выделить группу задач чисто сигнальной фильтрации, которые возникли вместе с радиосвязью и локацией и только вместе с ними и существуют. Обобщенно эта задача характеризуются тем, что из шума надо выделить очень узкополосный сигнал, к тому же характеризующийся определенным типом модуляции (типов модуляции применяется немного, буквально считанное количество). Самое сложное, что здесь может быть это “плавающая частота модуляции”, но опять же это усложнение только количественное, “узкий” спектр сигнала плавает в некотором диапазоне, возможно по некоторому неизвестному закону и так же изменяется параметр модуляции.

Отметим, что эта задача характерна только для техногенных систем вполне определенного типа, к тому же не исключено, что “так принято” только в нашей кибернетической технологии, но другие реально существующие сообщества (например, растений или даже целые цивилизации) используют другие принципы организации информационных каналов. Важна ведь не передача сигнала самого по себе, он только носитель сообщения и просто “мы, люди так умеем”, “так научились строить системы связи”. Задачу этого класса, выделение узкополосного сигнала с жестко определенными параметрами в широкополосном шуме создали мы сами. Во многих же случаях мы имеем дело с совсем иными “по устройству” сигналами, будь то биомедицинская, военная тематика, робототехника и т.п.

Действительно, рассмотрим подробнее уровни задачи локации. Первые радарные системы успешно использовали сигнальную парадигму, достаточно было отфильтровать “свой” сигнал и по нему определить параметры цели. С появлением систем пассивного противодействия дело несколько осложнилось, но сигнальная парадигма все еще оставалась работоспособной, достаточно вспомнить иракские войны, когда “стелс”’ы, невидимые для современных сантиметровых радаров, оказались беззащитны против “старых” систем метрового диапазона. С появлением систем активного противодействия, систем аэрозольной и ионизационной защиты возможность сигнальной парадигмы исчерпала себя, путем “механической фильтрации” сигнал невозможно выделить достоверно.

Для пассивных (тепловых и т.п.) систем такая ситуация создается также и естественным образом, помехами фона. Здесь мы уже не можем использовать гипотезу о существовании “своего” сигнала, он настолько хорошо подавлен, что не существует как физическая реальность. Остается надеяться только на выделение из этого “общего шумового сигнала” структуры искомого объекта, его размеров, конфигурации и параметров движения. Т.е. задача классификации элементов фона и выделения искомого (ожидаемого) объекта выделяется сама “естественным образом” и совсем не обязательно предварительным заданием некоторых соглашений. В некоторых случаях для этого необходимо хорошо изучить общую ситуационно-сигнальную обстановку. а потом уже только ставить в ней некоторые задачи. Поэтому фактически все перечисленные выше задачи выстраиваются в естественную иерархию:

предварительная фильтрация, определение “окон наблюдаемости” не только в смысле частотных диапазонов, но и смысле системы “информативных признаков”;
классификация элементов наблюдаемой картинки, отсечение “ненужных”;
распознавание, установление есть ли “наблюдаемый объект” – “объект истинный”;
управление, выработка стратегии (независимо есть ли это самолет противника или вид аппендицита).

При этом надо заметить, что, за исключением ситуаций специально устроенных в лаборатории, все четыре задачи имеют смысл именно как единая совокупность. Не лишним будет и предположение об активной взаимосвязи всех четырех уровней, но связи уже не столько сигнальной, сколько информационной, сам человек так обычно и действует, “пробует варианты” и “учится на ошибках”. Однако в такой постановке задачи нам придется навсегда расстаться с тремя весьма сильными предположениями, которые фактически всегда присутствуют в любой “классической” постановке, а именно:

предположением о наличие регулярного сигнала определенного вида “своего” или нескольких заданных видов “искаженного”. В лучшем случае мы можем считать сигнал чем-то из класса полиномов Вейерштрасса типа

т.е. типа “дробового шума”;
предположением о знании “окон наблюдаемости”, т.е. и окон прозрачности и знании всех информационных признаков. В лучшем случае мы “угадали некоторые”;
предположением, что в классификации присутствует “ожидаемый” объект.

На деле мы выносим еще одно предположение, которое иногда может стать решающим для решения всей задачи в целом. В общем случае фактические измерения дискретизированы и по уровню сигнала и по времени. Но также фактически неизвестны ни истинные масштабы компонент сигнала (признаков), ни значение главной частоты (как скоро объект стационарен во времени, существует как таковой, то таковая необходимость существует), ни параметры нестационарности. Также в общем случае неизвестны и “положения ракурса”, это очень хорошо знакомо работающим с геометрическими объектами, с “техническим зрением”, но в том или ином смысле присутствует и в любом измерении любого объекта. Т.е. фактически мы имеем дело с сигналом дискретизированного шума типа

где ,

а это означает, что мы имеем дело с задачами классификации шумов общего вида, “приближающихся к пуассоновским”.

Последнее, что мы выделим отдельно, хотя обычно это считается “само собой разумеющимся”, а потом так же легко забывается в процессе поиска решения: мы не имеем права произвольно упрощать задачу, поскольку любое “упрощение” равновероятно может как привести к истинному решению, обнаружению объекта существующего как физическая реальность, так и к порождению ложной классификации, множества объектов-фантомов.

Т.е. в действительности должна ставиться задача классификации многомерной системы объектов, о каждом из которых априори известно лишь то, что он “похож на Пуассоновский процесс” и “достаточно хорошо моделируется дискретизированным полиномом Вейерштрасса, но с априори неизвестными параметрами”. Такая постановка задачи далеко не нова, сначала экономисты определили ее как “задачу классификации данных произвольного вида”, а затем, с развитием программирования, это определение перекочевало в теорию и практику программирования и разработки баз данных.

Посмотрим, что же имеется на сегодняшний день из инструментария компьютерных технологий для решения этой задачи.

2. Постреляционные и объектные технологии

Здесь мы не ставим вопрос о сколько-нибудь подробном анализе постреляционных и объектных технологий, напомним лишь некоторые фундаментальные положения, которые хотя и не обоснованы формально, но могут считаться фундаментальными в силу их повсеместного и постоянного действия. Впрочем некоторые из фундаментальных свойств структур данных и не могут быть обоснованы в рамках традиционной математики, общепринятых формализмов, поскольку сами являются формализмами, но уже другого ранга, формализмами систем со “вложенной” или “многопорядковой” динамикой.

Эти вопросы достаточно подробно рассмотрены в монографии [1], там же поставлена и задача разработки “математики систем многопорядковой динамики”, однако задача эта слишком объемна и пока следует отдать предпочтение привычным представлениям. В частности, таковым может служить аппарат “многоступенчатых порождающих грамматик”, включающих в себя в отличие от известных W-грамматик не только уровни правил, метаправил и гиперправил, но на месте гиперправил структурированную иерархию “надстроенную вверх” по законам самоструктуризации информационных потоков.

Однако далее, рассматривая законы самоструктуризации и организации “уровней управления в живом”, в открытых системах мы приходим к выводу о том, что вполне возможно никакой “отдельной математики” не существует, механизм ступенчатых порождающих грамматик самодостаточен, он и есть тот самый формализм уровня “естественного интеллекта”. Попытка же создать или открыть “сверхформализм” равнозначна заявке стать “заведомо умнее любого человеческого существа”. В рассматриваемом прикладном аспекте для нас важно то, что формализм динамического объекта является необходимым и достаточным и, к тому же, механизмом минимальной сложности для представления открытой системы как феномена, а значит и для всей совокупности задач “фильтрация - управление”. Здесь необходимо сделать некоторые замечания, восстановить статус существенно деформированных понятий.

Во-первых, открытость, открытую систему следует понимать не в духе программиста-ремесленника, как возможность “добавить в описание еще одни элемент”, но в постановке общей теории систем от А.Богданова, фон Берталанфи и до формулировок информодинамики. То есть открытая система по определению содержит в себе и механизмы самоконструирования и формализм самоописания достаточные для ее существования в изменяющемся Мире даже если эти изменения столь “велики”, что непредставимы никакой конечной совокупностью математических моделей. Ясно, что классическим примером здесь является как весь биогеоценоз вместе с процессом эволюции, так и каждый отдельный вид, включая и популяцию Homo Sapiens. Но сюда же мы должны отнести и созданные человеком антропогенные системы, например, социумы, государства, экономические и финансовые системы, наконец живые языки, литературу, искусство и науку-как-целое.

Во-вторых, следует предостеречь от попыток дать “строгое определение” или формализацию” динамического объекта, это и есть сам универсальный формализм, необходимый и достаточный для описания и конструирования любых формализмов и теорий, которые когда-либо будут изобретены и самого сложного из доступных наблюдению физически реализуемого объекта – человека с его интеллектом.

Надо отметить, что сказанное совсем не в критику практиков – прикладников, но в предупреждение о том, что процессы девальвации и деструкции моделей, формализмов и понятий неизбежны в процессе практической деятельности, сами эти механизмы, их описание и принцип действия являются необходимым компонентом формализма динамического объекта. Точнее даже не компонентом, а одной из метааксиом или гиперправил грамматики верхнего уровня, определяющей само существования объекта. Как известно “не ошибается тот, кто не действует”, следовательно механизм неизбежного порождения ошибок, знание-о-своем-незнании является важнейшим компонентом знания. И, разумеется, не может быть возражений против поиска и создания формализмов интерпретаций динамического объекта и его компонентов для прикладных нужд, для реализаций на доступных физических компонентах, аппаратуре.

Посмотрим теперь как сказанное соотносится с современными информационными технологиями. Как показала практика реляционные технологии оказались совершенно непригодными для представления объектов со сколько-нибудь заметной изменчивостью, не говоря уже об объектах с динамикой, где скорости изменения внешних воздействий и среды, сопоставимы со скоростями прохождения управляющих воздействий и скоростью реакции управляющей системы (фактическим временем сбора минимально необходимой информации для выработки управляющего воздействия). Если не ждать и не искать чудес, то все тривиально ясно уже на уровне постановки.

Проектируя реляционную систему мы вносим мощнейшее предположение, практически аксиому о том, что все, что может происходить является даже не алгебраическим формальным объектом, но некоторой его частной реализацией, полностью определенной видом заданных таблиц. Сюда же надо добавить, что реальный физический объект мы наблюдаем через физические процессы и датчики, то есть всю совокупность явных и неявных предположений о наблюдаемости.

Фактически мы принимаем едва ли не всю совокупность априорных предположений, которые как раз категорически нельзя принимать - см. материал предыдущего раздела. Скорее всего не удастся даже поддерживать целостность данных, окажется, что структура наблюдаемого объекта очень скоро станет подчиняться совсем другой реализации алгебры, т.е. проще будет разрушить систему и построить новую, что повсеместно и наблюдается. Изобретение постреляционных и квазиобъектных технологий (декларирован объектный подход, но реализация выполнена опять же в виде “стопок реляционных таблиц”) может быть и облегчило жизнь программистам, но окончательно завело ситуацию в тупик. Что же в действительности происходит?

В реальности имеется физический объект, являющийся совокупностью неизвестного числа процессов (возможно) близких к Пуассоновским.
Из-за действия феномена наблюдаемости в системе управления оказывается представление объекта в виде дискретного представления некоторых фрактальных реализаций, например типа Вейерштрасса-Мандельброта. Возможно и других, это зависит от вкусов проектировщика, но все равно это будут некоторые фрактальные функции или близкие к ним.
Далее делается попытка смоделировать эту совокупность фракталов с помощью комбинаторики конечного числа алгебраических объектов произвольно (чаще всего именно произвольно) назначенного вида.

Достаточно очевидно к чему приведут такие комбинаторные игры. Доказать абсолютную расходимость рассмотренного процесса технически несложно, но вряд ли кому-нибудь это будет интересно и уже явно бессмысленно. Однако вред “квазиобъектных” подходов вполне реален, поскольку создает видимость возможности, реальный объект может быть в действительности представим комбинаторикой алгебраических объектов и эту комбинацию можно указать, так же как бывают фантастические серии выигрышей в рулетку.

Аналогия с азартными играми вполне точна и поучительна, налицо и выигравшие, т.е. получившие удачные решения и явная видимость того, что “способ выиграть” реально существует, и, разумеется существует реальный владелец выигрыша – его величество ХАОС, порождения бесконечного числа алгоритмов и методик. Интересна, конечно, не критика, а причина по которой псевдообъектные БД разрушаются сами по себе задолго до теоретического предела, до выхода на полный перебор, почти столь же легко, как и классические реляционные.

Суть дела достаточно тривиальна – архитектура памяти компьютера, точнее управление ею остаются такими же, как они были сделаны для удобства арифметических вычислений (обращения матриц, к чему собственно и сводится вся компьютерная арифметика). Память представляется как топологически плоский или многослойный массив в котором выделяются на первый взгляд естественно и удобно также прямоугольные матрицы для реляционных таблиц. Но суть отображения произвольных данных, динамики объекта в БД в том и состоит, что отображение должно изменяться, постоянно изменяются размеры матриц, следовательно необходимо либо резервировать очень много пустого пространства, либо устраивать сложную систему перевычисляемых ссылок.

Но по мере наполнения изменений любой резерв пустой памяти будет исчерпан, а система ссылок станет сложнее и больше по размерам, чем собственно модель данных, организуемая с ее помощью. Иначе говоря проблема в том, что модель данных пытаются напрямую отобразить в организацию адресного пространства и это отображение становится неэффективным и даже неуправляемым задолго до выхода на рассмотренную выше комбинаторику реляционных алгебр. Решение проблемы в том, чтобы не притягивать с одной стороны архитектуру адресного пространства и, с другой, данные к некоторой формальной, но произвольно назначенной модели – в данном случае таблице.

С другой стороны необходимо радикально разделить механизм физической адресации и логическую модель данных. Желательно иметь единый универсальный механизм, упорядочивающий данные некоторым “естественным” образом по мере их поступления. Логическая модель должна размещаться в физически отдельном адресном пространстве, а верхний уровень модели (управления моделью) должен быть реализован как интерпретатор, т.е. не статическая структура, а набор управляемых процедур. Именно на этих принципах и реализована пока единственная в мире архитектура управления данными Сасне’.

Более того, механизм управления памятью – В*-деревья оказывается абсолютно универсальным, обеспечивает размещение и собственно данных, и иерархической модели, и динамической части модели (интерпретатора управления данными), и самого ядра системы. Что же касается отображаемой модели данных для пользователя, то это вопрос интерфейса, можно выбрать иерархическое, табличное, в виде набора многомерных кубов, либо вообще разработать по своему вкусу. Таким образом Сасне’ является достаточным средством или универсальным “зародышем” (поскольку разработанное приложение становится частью системы) для конструирования динамического объекта.

Подробно с механизмом В*-деревьев можно ознакомиться, например, по [2], механизмы же и законы самоописания и самоконструирования объекта подробно рассмотрены в [1] (там же рассмотрены и некоторые вопросы создания и эксплуатации прикладных систем являющихся динамическими объектами, т.е. открытыми системами в смысле ОТС). Здесь же мы приведем некоторое рабочее определение динамического объекта, поскольку, напомним, “формального определения” в традиционном понимании не существует, объект сам формализм более широкого плана чем все традиционные. Поэтому определение придется дать через перечисление основных компонентов.

Итак динамическим объектом мы будем называть некоторую систему, в нашем случае программно-аппаратную (т.е. динамический объект вместе с реализацией, “модель объекта”, так же как мы говорим “модель автомобиля” или другого изделия) состоящую из следующих компонентов:

аппаратная основа, компьютер или сеть;
программное ядро, “зародыш”;
хранилище данных;
хранилище моделей данных (“знания”);
механизм самоописания;
механизм самоконструирования всех своих частей;
интерфейсы, т.е. средства коммуникации со средой и пользователем (множеством других динамических объектов).

Из определения ясна одна из причин по которой невозможна “формализация” определения – динамический объект без физической основы и окружения (“среды обитания” включающей и “коллег”, “пользователей”), т.е. без своей реализации, “конкретной модели” попросту не существует. Это будет “чистая виртуальность”, одной из главных метааксиом существования динамического объекта является наличие реализации и среды обитания, “возможность воспринимать и быть воспринимаемым”.

Идея о своих, отдельных законах и механизмах существования открытых систем уже кажется получила повсеместное признание и распространение, по крайней мере в среде исследователей, работающих с открытыми системами, например, в области биомедицинских исследований – достаточно просмотреть содержание сборника [3] и библиографию к нему, более 400 наименований. Идея о существовании “энергии живого” и ее законов впервые была внятно сформулирована Вернадским и конструктивно использована Л.Н.Гумилевым. Просто оказалось [1], что это совсем не “энергия”, а законы и механизмы самоорганизации структур, являющиеся основой негэнтропийных процессов, универсальным концентратором любых видов энергии и энтропийные процессы, обеспечивающие концентрации на много десятичных порядков больше, чем любые физические.

Литература

1 Лачинов В.М., Поляков А.О. Информодинамика. Изд.СПбГТУ, СПб, 1999 г.

2 Кирстен В. От ANS MUMPS к ISO M-технологии, Изд. СП.АРМ, СПб, 1995.

3 Телемедицина. Новые информационные технологии на пороге XXI века (коллектив авторов). – СПб: “Анатолия”, 1998. – 490 с.

Site of Information Technologies
Designed by inftech@webservis.ru.