Сайт Информационных Технологий

Genkin A.A

RUSSIA, St.-Petersburg, Research Firm “bitellegent Systems”

e-mail genkin@atlant.ru

TOWARD CONSTRUCTING INTELLIGENT MEDICAL SYSTEMS THAT FORM ALGORITHMICALLY THE INFORMATIONAL IMAGE OF DISEASE

Abstract

This report contains the methods of constructing and the experience of exploitation of the intelligent system OMIS. This system extracts automatically knowledge out of empiric data and uses it for solving complex expert problems in different domains of medicine. The essence of this method is the introduction of a probabilistic measure on the basis of interval and binary (matrix) structures and a concilium of rules for decision making.

 

Генкин A.A.

Россия, С.-Петербург, Научно-исследовательская фирма “Интеллектуальные Системы”

e-mail genkin@atlant.ru

К ПОСТРОЕНИЮ ИНТЕЛЛЕКТУАЛЬНЫХ МЕДИЦИНСКИХ СИСТЕМ, АЛГОРИТМИЧЕСКИ ФОРМИРУЮЩИХ ИНФОРМАЦИОННЫЙ ОБРАЗ БОЛЕЗНИ

Аннотация

В докладе излагается методология построения и опыт эксплуатации интеллектуальной системы, автоматизировано извлекающей знания из эмпирических данных и использующей их для решения сложных экспертных задач в различных областях медицины. В основе методологии - введение вероятностной меры с помощью интервальных и бинарных (матричных) структур и консилиум решающих правил.

Принципиальные трудности разработки экспертных медицинских систем связаны не только со сложностями формализации медицинских знаний, но и просто с их отсутствием [1]. Современная медицина имеет ограниченные возможности ранней диагностики раковых заболеваний, недостаточные представления о механизмах гомеостаза жизненно-важных патологических процессов (атеросклероза, инфекции, воспаления, интоксикации, гипоксии и др.). Современная наука очень далека от понимания пространственно-временной организации физиологических процессов, и ценнейшая информация, заключенная в ЭЭГ, ЭКГ, пневмограмме и др. пока не используется для осознания фундаментальных механизмов жизнедеятельности.

В последние годы наметилась тенденция опираться при разработке базы знаний интеллектуальных систем не только на знания экспертов в определенной предметной области, но и на знания, тем или другим образом извлекаемые из данных [2], [З].

При проектировании медицинских экспертных систем, автоматизировано формирующих базу знаний из эмпирических данных, основная роль специалиста в предметной области переносится на разработку оболочки компьютерной истории болезни.

Современный уровень развития медицинской информатики и вычислительный техники позволяет в диалоге с пользователем отобразить данные компьютерной истории болезни в такие математические информационные структуры, которые становятся полноценными объектами базы знаний интеллектуальной системы. Ниже излагается успешный опыт построения такого программного комплекса [4].

Пусть вектор) - набор из n значений количественных и качественных признаков, элемент n-мерного пространства. Векторы содержат информацию о временном срезе состояния N пациентов (или информацию о состоянии одного пациента в N моментов времени). Множество векторов обусловленных клинической ситуацией D, будем называть образом в пространстве признаков и обозначать

С точки зрения системного подхода [5, 6], может быть представлено как подмножество прямого произведения где диапазон допустимых значений признака, совместимый с жизнью организма [4 ].

Если вместо оценки средних и коэффициентов корреляции (в случае медицинских данных приводящих к большим потерям информации) использовать вероятностные меры для всех и для всех бинарных отношений , то принципиально расширяются возможности описания информации об образе по сравнению с многомерной нормальной моделью.

Другими словами предполагается, что основная информация об D содержится в подмножестве S множества

T.e мы имеем отображение

(*)

Отображение (*) позволяет:

1) основную информацию о n-мерном многообразии любой сложной структуры свести к информации, заключенной в одномерных и двумерных объектах, для которых становится реальным введение вероятностной меры;

2) использовать адекватные методы анализа частот при анализе разнотипных клинико-лабораторных и инструментальных данных (числа, перечисления и др.).

Введение вероятностной меры в n-мерном пространстве досталось ценой значительного увеличения числа признаков, так как вместо одного n-мерного образа анализируются n- одномерных и двумерных множеств. Но уже само введение вероятностной меры позволяет эффективно оценить значимость информации, заключенной в элементах множества (*), а затем значительно сократить их число [7, 8]. Поэтому, на самом деле, наиболее важную информацию о клинической ситуации удается экономно представить в виде небольшого числа частотных распределений - интервальных и бинарных (матричных) структур.

Пусть - множества векторов - образов, индуцируемых клиническими ситуациями, которые отражают цели, стоящие перед исследователем; [а, b] -диапазон изменения признака x, - любое значение признака х. Введем разбиение диапазона [а, b} на небольшое число (не большее четырех) отдельных диапазонов, длины которых заранее не предопределены. Обозначим через частоту попадания значения признака х в s-й диапазон. Для двух клинических ситуаций и в качестве наилучшего разбиения диапазона [а, b] выбирается разбиение, обеспечивающее функционалу Кульбака [7] значение, близкое к наибольшему, т.е. такое разбиение , при котором можно наилучшим образом использовать дифференциально-диагностические возможности признака х для пары референтных условий и . Интервалы, образующие разбиение, вместе с вероятностями появления значения признака в каждом из этих интервалов будем называть интервальной структурой. Границы интервалов, входящих в интервальную структуру обусловлены целью, стоящей перед пользователем, и каждый раз при решении конкретной задачи они подчеркивают наиболее значимую дифференциально-диагностическую информацию.

Для двух признаков хi и xj, зная разбиения 1 и 2 для каждого из них, естественным образом строятся оценки - частоты попадания пары значений признаков хi и хj в соответствующие прямоугольники. Множество прямоугольников вместе с оценками предлагается называть бинарной (матричной) структурой, а соответствующую пару признаков - двумерным признаком. Интервальные и бинарные (матричные) структуры - новые объекты медицинской информатики. Они эффективно характеризуют вариабельность медико-биологических признаков и подчеркивают дифференциально-диагностическую информацию, когда другие методы не в состоянии этого сделать.

При построении интервальных и бинарных структур появляется возможность отбирать одномерные и двумерные информативные признаки. По величине функционала Кульбака и числа наблюдений, участвующих в формировании интервальных и бинарных структур, признаки упорядочиваются по возрастанию уровня значимости различий Р [7, 8].

Выделим одну из клинических ситуаций D. Для нее и набора признаков x1,x2,..., хn мера Кульбака J(D:Dj ,хs) j= 1,2,... ,т; k = 1,2,... , n находит подмножество интервальных и бинарных структур, наилучшим образом характеризующих отличие D от клинических ситуаций Dj . При разных j полученные структуры содержат дифференциально-диагностическую информацию о клинической ситуации D по отношению к разным рассматриваемым клиническим ситуациям.

Выявленное таким образом множество интервальных и бинарных структур мы называем информационным образом клинической ситуации D (информационным образом болезни или состояния). Этот образ легко построить, если заданы Dj (j = 1,2,..., n) и множество признаков x1,x2,..., хn).

При разработке решающего правила нет необходимости использовать все информативные признаки (все признаки, входящие в информационный образ болезни). Всегда существуют подмножества информационно-ценных признаков (вообще говоря, различные для разных стратегий распознавания), которые обеспечивают более высокие результаты. Поиск подмножества информационно-ценных признаков реализован в двух вариантах. Суть более простого заключается в следующем.

1-й шаг. Из множества информативных выбирается признак, обеспечивающий на обучающей группе минимум суммы вероятностей ошибок классификации.

2-й шаг. Из оставшихся информативных выбирается признак, который вместе с первым обеспечивает минимум суммы ошибок классификации на той же группе; при этом каждый признак, который вместе с первым ухудшал результат только первого, из дальнейшего рассмотрения исключается. Процесс продолжается до тех пор, пока сумма ошибок классификации уменьшается.

Второй вариант - более трудоемкий - отличается тем, что на каждом шаге при выборе очередного признака просматриваются все оставшиеся признаки, а не только те, которые на предыдущем шаге улучшали результат. Этот вариант поиска информационно-ценных признаков приводит к подмножеству, дающему лучшие результаты. Число информационно-ценных признаков значительно меньше числа информативных.

В интеллектуальной системе ОМИС объектами базы знаний являются алгоритмически формируемые информационно-ценные интервальные и бинарные структуры и алгоритмы, опирающиеся на статистические стратегии распознавания образов (Неймана- Пирсона, Вальда, Байеса, последовательного Байеса). Первые три стратегии хорошо известны, а последняя (многошаговый байесовский алгоритм), заключается в упорядочивании (по убыванию информативности) признаков, и формула Байеса используется последовательно, при чем на каждом шаге, начиная со второго, априорной вероятностью считается апостериорная вероятность, вычисленная на предыдущем шаге; решение принимается на последнем шаге в пользу той гипотезы, для которой апостериорная вероятность оказывается наибольшей [4].

Формализация знаний с помощью интервальных и бинарных структур позволяет для решения одной и той же дифференциально-диагностической задачи быстро разрабатывать разные алгоритмы, которые отличаются как наборами информационно-ценных признаков, так и стратегиями распознавания. Принятие решений консилиумом таких решающих правил [9], обеспечиваемое специальной организацией базы знаний и экспертного модуля системы ОМИС, приводит к результатам, превышающим возможности современного клинического опыта [4].

Рассматриваемая методология особенно эффективна при разработке интеллектуальных программно-инструментальных комплексов анализа физиологических процессов. Существующие сегодня системы анализа ЭЭГ (и других процессов) очень далеки от извлечения содержательной психофизиологической и клинической информации.

Особенность физиологических колебаний - связь разных фаз единичных циклов активности с разными функциональными состояниями; циклический процесс • это не просто смена нарастания и убывания одного фактора, а последовательная смена качественно различных состояний. Поэтому наиболее важная медико-биологическая информация о временной динамике содержится не в амплитудно-частотном спектре и не в обнаружении во временном ряде различных медленных компонент, а в получении знаний о том, как предыдущая фаза процесса обусловливает последующую, а она, в свою очередь, обусловливает следующую за ней .

В основе наших методов, направленных на анализ временной организации физиологических колебаний, лежит расчленение исходного процесса на дискретные последовательности характеристик единичных колебаний. Получающиеся временные ряды рассматриваются как элементы системного целого во времени, каковым и является исходный физиологический процесс [10] Рассматриваемый подход приводит к описанию содержательной информации о разных физиологических процессах и их отношениях между собой единообразным образом в виде матриц, с информационной точки зрения подобных матрицам бинарных отношений клинико-лабораторных данных (бинарным структурам). Такое единообразное описание открывает исключительные возможности для изучения физиологических процессов, а соединение исследовательского модуля с приборами получения информации о жизнедеятельности организма (реокардиомонитор, монитор артериального давления и пульса, электроэнцефалограф, биохимические анализаторы и др.) позволяет в едином программном комплексе автоматизировать процесс эмпирического медико-биологического познания [4 ].

Литература

[1]. Van Bemmel JJH. Medical Informatics, Art or Science? IIMeth. Inform. Med. 1996. - v..35.-p. 157-172.

[2].Переверзев-Орлов B.C. Проблемы и концепции построения интеллектуальных партнерских систем //Компьютеры и познание. - М., 1990. - с. 52 - 57.

[З]. Осипов Г.С. Приобретение знаний интеллектуальными системами. -М., Наука, 1997.

[4]. Генкин А.А. Новая информационная технология анализа медицинских данных - СПб. Политехника, 1999.

[5]. Месарович М.Д. Общая теория систем и ее математические основы // Исследования по общей теории систем. Сборник переводов / Общая ред. В.Н. Садовского и Э.Г.Юдина - М., Прогресс, 1969.

[б]. Клир Дж. Системология. Автоматизация решения системных задач - М., Радио и связь, 1990.

[7]. Кульбак С. Теория информация и статистика - М., Наука, 1967.

[8]. Колмогоров АД. Предисловие редактора перевода книги [7].

[9]. Растригин Л.А. Эренштейн РА. Метод коллективного распознавания - М., Наука, 1981.

[10] Генкин А.А. Медведев В.И. Прогнозирование психофизиологических состояний. Вопросы методологии и алгоритмизации. - СПб. Наука, 1973.


Site of Information Technologies
Designed by  inftech@webservis.ru.