МЕТОДЫ ОБУЧЕНИЯ ДЛЯ СЕМИОТИЧЕСКОЙ СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ
А.П.
Еремеев, П.В. ШутоваМосковский энергетический институт (технический университет)
Abstract – Algorithms of the reinforcement learning for decision support systems of real time in conditions of incomplete input information are discussed.
Введение
Система поддержки принятия решений (СППР) является, по сути, системой распределенного искусственного интеллекта, сочетающей строгие, формальные методы и модели поиска решений с нестрогими, эвристическими методами и моделями, базирующимися на знаниях специалистов-экспертов, моделях человеческих рассуждений, имитационных моделях, неклассических логиках и накопленном опыте; и включающей ряд взаимодействующих между собой интеллектуальных модулей (агентов), т.е. модулей выполняющих соответствующие интеллектуальные функции
[1]. К числу таких модулей (помимо традиционных для экспертных систем модулей: баз данных и знаний, решателя, модулей накопления и пополнения знаний, объяснения и т.д.) относятся модули имитации (моделирования) проблемной ситуации, прогнозирования, связи с внешними объектами (датчиками, контроллерами, концентраторами данных, управляющими приводами и т.д.), организации различных видов интерфейса (образного, текстового, речевого, в виде различных графиков и диаграмм и др.) с лицом принимающем решения (ЛПР). К интеллектуальным относятся также функции вывода (поиска) решения на базе моделей и методов представления и оперирования динамическими знаниями, характеризующимися недостоверностью, нечеткостью, неполнотой и противоречивостью. Поиск решения осуществляется с использованием механизмов нечетких, псевдофизических (пространственно-временных и причинно-следственных), немонотонных (абдуктивных, умолчания и т.д.) логик, а также механизмов обобщения и пополнения динамических знаний.Как правило, различные функции требуют различных механизмов представления и оперирования знаниями или соответствующих их сочетаний. Например, функции прогнозирования могут быть реализованы на основе методов регрессионного анализа и экстраполяции на заданный временной интервал или до возникновения определенной ситуации. Для имитации проблемной ситуации (поведения управляемого объекта или его подсистемы) могут использоваться точные математические модели (например,
системы конечно-разностных уравнений для моделирования штатных режимов функционирования объектов) в сочетании с экспертными моделями (например, на базе продукционно-сетевых моделей представления и оперирования динамическими знаниями для моделирования аномальных и критических режимов), основанными на эвристической информации и методах правдоподобного вывода на теоретико-вероятностном уровне (например, модифицированный байесовский метод) или на основе нечетких правил вывода (нечетком 'modus ponens') [2,3].1. СППР как семиотическая система
СППР семиотического типа как систему распределенного интеллекта можно формально определить следующим набором [3]:
SS = <M,R(M),F(M),Q(SS)>,
где M={M
1,...,Mn} - множество формальных или логико-лингвистических моделей, реализующих определенные интеллектуальные функции;R(M) - функция (правило) выбора необходимой модели (совокупности
моделей) в текущей ситуации;F(M)={F(M1),...,F(Mn)} - множество функций модификации моделей M1,...,Mn;
Q(SS) - функция (множество функций) модификации собственно системы SS - ее базовых конструкций M, R(M), F(M) и, возможно, самой Q(SS).
Поиск (вывод) решения в рамках индивидуальной модели Mi поддерживается правилами монотонного или, при необходимости, немонотонного и нечеткого вывода. Переход же с одной модели на другую или корректировка модели ведет, как правило, к нарушению ("разрыву") монотонности. Этот переход осуществляется посредством реакции на соответствующее событие или используя нечеткое правило вывода типа A'* (A -> B) , где A' и A - нечеткие множества, описывающие состояния проблемной области, причем между элементами из A и A' определено нечеткое отношение сходства, B - нечеткое множество допустимых воздействий (реакций), * - операция композиции нечетких множеств, определенная, например,
по Заде.СППР ориентированы в основном на динамические проблемные области, характеризующиеся неполнотой, неопределенностью, противоречивостью имеющейся для анализа информации и возможностью ее пополнения и корректировки в процессе поиска решений.
Невыполнение условий полноты и достоверности поступающей информации в динамических проблемных областях может обуславливаться различными факторами, например, сбоями или выходом из строя датчиков (сенсоров), не полным учетом (контролем) внешних воздействий, неполнотой и противоречивостью базы знаний, ошибками ЛПР и т.д. [3]. В этих условиях марковская модель не в состоянии дать адекватное описание предметной области (процесса принятия решений), и необходимо использовать немарковскую модель, обладающую памятью и позволяющую учитывать предысторию изменения состояний,.
Заметим, что качество принимаемых решений можно попытаться улучшить, если учитывать также информацию о последствиях принимаемых решений, получаемую из базы знаний (если там накапливается информация о прошлом опыте) или от модуля прогнозирования СППР.
2. Методы обучения на основе немарковской модели
Поиск решения в СППР в условиях неполноты и неопределенности можно осуществлять на основе немарковской модели процесса принятия решений с обучением, способной посредством анализа предыстории процесса обучаться и настраиваться (адаптироваться) на специфику проблемной области и, таким образом, повышать качество принимаемых решений.
Будем предполагать, что неполнота и недостоверность информации о текущем состоянии проблемной области, поступающей в СППР, в основном вызвана отсутствием или ошибочной работой датчиков (сенсоров). Для обучения будем использовать технологию так называемого подкрепленного (усиленного) обучения (RL - Reinforcement Learning) [4], активно используемую для обучения систем принятия решений с марковскими моделями посредством выявления имеющихся закономерностей на основе анализа предыстории процесса. Одно из ее основных достоинств – ориентация на режим реального времени и эффективность в случае недетерминированных проблемных областей.
Модуль принятия решений, способный посредством взаимодействия с внешней средой и анализа оценочной функции (функции платежа) корректировать стратегию принятия решений, будем называть агентом. Задачей агента является нахождение оптимальной (для марковских процессов) или допустимой (удовлетворительной) стратегии принятия решений. Интеллектуальный агент должен поддерживать как минимум несколько путей обучения (приобретения опыта) и уметь адаптировать накопленный опыт к изменениям в окружающей среде.
В RL-обучении обучении взаимодействие “агент - окружающая среда” моделируется посредством контроллера, связывающего СППР и среду. На каждом временном шаге контроллер выполняет действие, которое заставляет среду менять состояние и генерировать платеж. Целью агента является нахождение такой стратегии принятия решений (политики), которая максимизирует со временем средний платеж.
Обобщенная схема взаимодействия "агент - окружающая среда" следующая. Процесс (процессы) восприятия отображает состояния среды (проблемной области) во внутренние представления агента, а процесс (процессы) воздействия отображает предлагаемые агентом воздействия в действия (преобразования) внешней среды.
Для возможности обучения и адаптации к изменениям внешней среды агент, очевидно, должен обладать памятью для хранения предыстории. При этом возникает ряд проблем: насколько велик объем доступной информации о прошлом; как агент будет решать, что запоминать; в каком виде хранить информацию и как ее использовать и т.д. Выделяются два основных подхода к решению этих проблем [4]. Согласно первому - агент сохраняет скользящее окно для истории, согласно другому - агент строит зависящую от состояния предсказательную (прогнозную) модель окружающей среды. Может применяться и комбинация этих подходов, когда агент анализирует чувствительную к предыстории политику принятия решений непосредственно при обучении.
Согласно методу
“окно” для определения своего внутреннего представления агент использует текущие ощущения (сенсорные входы), ощущения за самые последние по времени N шагов; и N самых последних действий. Другими словами, архитектура “окно” допускает прямой доступ к информации о прошлом через скользящее окно (N называется размером окна).Также исследованы более сложные методы, использующие для обучения дополнительную информацию (контекст). Этот исторический контекст вместе с текущими сенсорными входами агент может использовать для определения своего внутреннего представления. Если контекстуальная информация корректна, то результирующее внутреннее пространство состояний будет марковским, и для поиска решения могут быть использованы классические модели подкрепленного обучения.
Подчеркнем, что эти методы, существенно более сложные в реализации, чем метод "окно", гарантируют нахождение оптимальных стратегий лишь в случае корректного контекста, проблема построения которого может быть успешно решена, как правило, только для статических областей, когда неполнота и неопределенность входной информации может быть скомпенсирована посредством анализа предыстории процесса. Для динамических проблемных областей данные "не"-факторы обычно присутствуют постоянно и проблема нахождения корректного контекста становится трудноразрешимой.
С учетом вышеизложенного для реализации обучающейся немарковской модели в СППР в качестве базового был выбран метод "окно".
В настоящий момент на его основе реализованы два примера. В первом примере реализуется достаточно общая (универсальная модель) диагностического модуля для интеллектуальной СППР реального времени, предназначенной для оперативной помощи ЛПР при управлении сложными объектами и процессами в условиях неполноты и неопределенности данных.
Данная разработка отличается от большинства других экспертных систем своей попыткой обойтись без вербализации (выражения в естественном языке) и объяснения экспертами используемых методов управления объектом, то есть, практически, попытаться “извлечь” знания у эксперта без его содействия прямо в процессе его работы. Для этого служит таблица эталонов поведения, которая запоминает действия опытного оператора, управляющего сложной системой, а затем на основе этих данных для текущего состояния системы выбирается наиболее близкий эталон поведения (с использованием четкого или нечеткого отношения соответствия) и соответствующая ему комбинация действий. В условиях неопределенности, неполноты и неточности (нечеткости) данных и для различения гипотетических состояний, в которых могла бы находится система в данный момент времени, применяется степень доверия.
Цель диагностического модуля – сделать вывод о состоянии системы, то есть определить наиболее близкий эталон поведения, а, следовательно, и порекомендовать оптимальное или допустимое воздействие. При этом эталон можно рассматривать как аттрактор, вокруг которого существует
область притяжения. Если система находится в состоянии, отличном от эталонного, то это равносильно частичной информации об эталоне. Если это состояние достаточно близко к эталону и попадает в область его притяжения, то система начинает двигаться к этому эталону – “вспоминает” его. Это выглядит как восстановление неверно заданных или отсутствующих признаков эталонного образа, отыскание полной информации о нем.Реализация СППР реального времени семиотического типа в достаточно полном объеме возможна только при условии использования современных технологий конструирования интеллектуальных систем, основанных на концепциях распределенного искусственного интеллекта, динамических адаптивных моделях представления знаний и поиска решений, параллельной обработке информации при поиске решения с использованием экспертных знаний и методов достоверного и правдоподобного вывода, а также базируясь на мощных вычислительных средствах типа рабочих станций с соответствующими инструментальными средами. Одной из таких сред является инструментальный комплекс
G2, являющейся эффективным средством конструирования экспертных систем реального времени и позволяющей работать с предысториями и темпоральными данными.В этой среде была реализована более простая модель обучения на основе архитектуры
‘окно’ в среде G2. На этом примере показывается что архитектура “окно” способна выявлять закономерности, существующие в проблемной области и, таким образом, повышать качество принимаемых решений. Пример ориентирован на снятие неопределенности возникшей по причине выхода из строя датчиков.Заключение
Рассмотрена возможность реализации немарковской модели с обучением для СППР семиотического типа в условиях неполноты и неопределенности. Известно, что обучение в немарковской модели является наиболее сложной задачей. Моделирование показало практическую приемлемость относительно простого в реализации метода LR-обучения - метода "окно".
Предложенная модель включена в состав моделей Mi прототипа СППР реального времени семиотического типа для оперативно-диспетчерского персонала атомного энергоблока, реализуемого на основе инструментального средства G2 [5,6]. Для сокращения времени обучения и повышения качества принимаемых решений алгоритм можно модифицировать, разделив множество состояний (событий) на активные, получаемые в результате управляющих воздействий, и пассивные, которые каузируются непосредственно текущим событием.
Литература
Site of Information
Technologies Designed by inftech@webservis.ru. |
|