Технические нервные системы. Глава 2

2. Моделирование обучаемых систем управления

Основой моделирования обучаемых систем управления является разработка математической модели процедуры ее обучения.

2.1. Математическое моделирование процесса обучения обучаемой системы управления

2.1.1. Алгоритм обучения обучаемой системы управления

Процесс обучения, заключающийся в формировании проводимостей регулируемых резисторных элементов преобразующей матрицы, аналогичен формированию условных рефлексов в живой природе. Если в какой-либо ситуации сигнал управления отдельным исполнительным органом не удовлетворяет обучателя, он подает обучающий сигнал на соответствующий столбец резисторной матрицы. Это можно осуществить, например, нажимая кнопку из токопроводящей резины, в виде которой выполнен элемент коммутации распределителя сигналов обучения. Чем сильнее усилие нажатия кнопки, тем больше значение обучающего сигнала, подаваемого на соответствующие преобразователи проводимостей резисторных элементов. При этом может исказиться сигнал управления данным исполнительным органом в другой ситуации. Его аналогично корректируют до требуемой величины. Затем переходят к следующей ситуации, соответствующей очередному шагу обучения. Проведя обучение во всех ситуациях обучаемой выборки, снова возвращаются к первой и т.д. Как говорится, повторение – мать учения.
Примем, что в любой ситуации сигнал управления отдельным исполнительным органом определится как

где j – номер ситуации; m – общее количество рецепторов; b_ij – возбуждение i-го рецептора в j-ой ситуации; c_i – весовой коэффициент i-го рецептора.
Задача обучения сводится к определению весовых коэффициентов c_i. В реальных условиях, когда в общем случае не определено общее количество ситуаций решаемой задачи, определение значений c_i может быть только итерационным, т.е. путем постепенного приближения. Именно в этом состоит процесс обучения. Он позволяет определить поправку всех весовых коэффициентов D c_i на очередном шаге обучения с учетом ошибки D E_j , определяемой как разность между желаемым и действительным значениями сигнала управления. Эту ошибку определяет обучатель.
Так как все рецепторы системы очувствления обезличены, то в процессе обучения не может осуществляться индивидуальная корректировка каждого из них. Корректировка должна проводиться общей для всех рецепторов командой. Принципом корректировки весовых коэффициентов рецепторов является изменение их значений пропорционально общей ошибке D E_j и возбуждению каждого рецептора b_ij:

D c_i = K_j · D E_j · b_ij ,__________________(2.2)

где K_j – общая команда на корректировку в j-ой ситуации.

Если задаться целью сведения ошибки D E_j после обучения на данном шаге к нулю, то очевидно

Команда K_j определится из совместного решения (2.2) и (2.3):

Подставляя (2.4) в (2.2), получим выражение для определения поправки весового коэффициента каждого рецептора

Таким образом, на каждом t-м шаге обучения значение i-ого весового коэффициента определится выражением:

Выражения (2.1) и (2.6) составляют вычислительную модель обучаемой системы управления. Вычислительная модель может использоваться в качестве универсального алгоритма управляющих вычислительных машин (микропроцессоров и в том числе ЧПУ), работающих в режиме обучаемых систем управления.
Схема алгоритма расчета весовых коэффициентов представлена на рис.2.1. В блок-схеме алгоритма r – показатель, по которому определяется, для всех ли ситуаций обучаемой выборки фактические выходные сигналы входят в пределы допустимых отклонений d _E (в этом случае r = 0).

Рис.2.1. Алгоритм расчета весовых коэффициентов

С математической точки зрения данный алгоритм (рекуррентный алгоритм Качмажа) не самый оптимальный по числу необходимых итераций. Однако особенность его в том, что, как здесь было показано, он вытекает из процедуры обучения и отражает реальный процесс обучения обучаемых систем, в том числе и биологических. Другими словами, использование данного алгоритма в обучаемых системах определяется не выбором его из многих возможных, а является результатом математической формализации процедуры обучения.

2.1.2 Алгоритм расчета рецепторных долей сигнала управления

Настройка проводимостей резисторных элементов матрицы технического мозга может быть неудобной в том случае, когда нет возможности изолировать каждый такой элемент. В этом случае предпочтительным является настройка, основанная на коррекции долей сигнала управления e_ij, определяемых отдельными рецепторами:

e_ij = c_i · b_ij ._____________________(2.7)

Сигнал управления при этом рассматривается как сумма долей сигналов всех рецепторов:

С учетом того, что поправка D c_ij проводимости i-го элемента технического мозга в j-ой ситуации зависит от погрешности сигнала управления D E_j и от возбуждения соответствующего рецептора b_ij, имеем

D c_ij = K · D E_j · b_ij .

Поправка доли D e_ij сигнала управления определится как

D e_ij = D c_ij · b_ij = K · D E_j · b_ij² .

Учитывая, что сумма поправок долей должна полностью устранять погрешность сигнала управления в данной ситуации на t-ом шаге обучения, получим аналитическое выражение для расчета элементарных рецепторных долей сигнала управления:

где t – номер данного шага обучения.

Полученное выражение позволяет рассчитать доли сигнала управления от отдельных рецепторов в некоторой опорной ситуации, что позволяет настроить матрицу технического мозга в этой ситуации так, что он будет формировать правильные сигналы управления во всех ситуациях обучаемой выборки.
Доли сигналов управления удобно пересчитывать относительно некоторой опорной ситуации, в которой затем осуществляется настройка матрицы мозга. В качестве опорной может быть выбрана любая ситуация обучаемой выборки или не входящая в выборку, но реальная ситуация, которую можно воспроизвести для настройки полученных значений долей сигнала управления.

Порядок расчета долей сигнала управления следующий.
1. Предъявляют очередную ситуацию обучаемой выборки и определяют фактический сигнал управления:

где индекс "о" означает опорную ситуацию.

2. Определяют ошибку сигнала управления в этой ситуации:

D Е_j = Е_j – Е_f.

3. Проверяют условие

D Е_j < d _{E j} ,

где d _{E j} – допустимое отклонение сигнала управления Е_j . Если условие соблюдается, то предъявляют следующую ситуацию обучаемой выборки; если условие соблюдается во всех ситуациях обучаемой выборки, то расчет прекращают.

4. Если условие не выполняется, то уточняют значения долей сигнала управления в пересчете на опорную ситуацию по формуле

Полученные в результате расчета значения долей сигналов управления используют для настройки резисторной матрицы технического мозга. Для этого системе предъявляют ситуацию, выбранную в качестве опорной, и изменяют проводимости соответствующих резисторных элементов таким образом, чтобы получить от каждого расчетное значение его доли сигнала управления.

2.1.3. Условие сходимости процесса обучения

Как видно из формулы (2.6), алгоритм обучения представляет собой вариант решения системы линейных алгебраических уравнений, известный как рекуррентный алгоритм Качмажа. При этом формулу (2.1) можно представить в виде:

Если система уравнений (2.9) совместна, то данный алгоритм приводит к ее решению, т.е. определению весовых коэффициентов c_i , обеспечивающих заданные выходные сигналы обучаемой системы E_j во всех ситуациях обучаемой выборки, характеризуемых признаками b_ij .
Может возникнуть вопрос: как быть, если система уравнений (2.9) не совместна или, говоря языком обучаемых систем, ситуации обучаемой выборки – противоречивы? Основной причиной противоречивости для обучаемых систем управления является недостаточность информации об окружающей обстановке. Примером противоречивости может служить случай, когда в ситуациях обучаемой выборки, характеризуемых одинаковыми b_ij, обучатель требует различных сигналов управления. Такое может произойти в случае, когда для обучателя очевидно, что данные ситуации различны, а рецепторы очувствления системы управления фиксирует только те признаки, которые для данных ситуаций совпадают.
Один из путей решения проблемы противоречивости – увеличение числа рецепторов системы, фиксирующих больше характеристик ситуаций обучаемой выборки. Действительно, трудно требовать от системы, имеющей, скажем, три рецептора, выполнения сложных функциональных задач. Кстати, число рецепторов биологических объектов исчисляется миллионами, к примеру человеческий глаз содержит примерно 125 миллионов рецепторов (палочек и колбочек). Процесс обучения в этом случае не только не увеличивается, но и, как известно из математики, наоборот, сокращается.

Далее следует отметить, что в реальных технических системах сигналы управления задаются с некоторым допуском, т.е. допустимым отклонением от номинального значения, причем величина этого допуска в некоторых ситуациях может быть значительной, вплоть до того, что задается только знак сигнала, положительный или отрицательный. Итак, сигнал управления в j-ой ситуации задается в пределах, определяемых выражением

E_j – d _Ej^(–) £ E_j £ E_j + d _Ej⁽⁺⁾ ,

где d _Ej^(–) – нижнее отклонение сигнала управления в j-ой ситуации, d _Ej⁽⁺⁾ – верхнее отклонение сигнала управления в j-ой ситуации.
Кроме этого, процесс обучения обучаемой системы характеризуется своей незавершенностью. Если в процессе работы в какой-либо ситуации сигнал управления выходит за пределы допуска, систему дообучают в этой ситуации, и работа ее продолжается.

2.2. Закономерности процесса обучения, выявленные с помощью его математической модели

2.2.1. Закономерности процесса обучения системы управления для двух ситуаций обучаемой выборки

Рассмотрим процесс обучения системы управления формированию выходных сигналов E₁ и E₂, соответствующих ситуациям A₁ и A₂, представленных образами B₁ и B₂ с наборами признаков:

B₁: ___ b₁₁, _b₂₁, _b₃₁, _ . . . , _b_m1 ;
B₂: ___ b₁₂, _b₂₂, _b₃₂, _ . . . , _b_m2 .

Для определения закономерностей процесса обучения используем вычислительную модель обучаемой системы управления [61 – 68]. Обучение состоит в поочередном предъявлении ситуаций с корректировкой весовых коэффициентов признаков. Каждое предъявление ситуации – шаг обучения, поочередное предъявление всех ситуации – цикл обучения. На каждом шаге p обучения весовые коэффициенты корректируются в соответствии с выражением

где c_i(p) – весовой коэффициент i-го признака на p-м шаге обучения; c_i(p–1) – значение весового коэффициента i-го признака на предшествующем шаге обучения; E_j(p–1) – значение выходного сигнала в j-ой ситуации, определяемое весовыми коэффициентами, полученными после p–1 шага обучения. Начальные значения весовых коэффициентов (до начала обучения) приняты равными нулю.

Величина абсолютной ошибки формирования выходного сигнала на t-ом цикле обучения определится выражением

D E_j(t) = E_j – E_j(t) ,

где E_j(t) – значение j-го выходного сигнала на t-ом цикле обучения.
Абсолютная ошибка формирования выходного сигнала для первой ситуации на первом цикле обучения:

D E₁(1) = E₁ – E₁(1) .

Фактическое значение выходного сигнала для первой ситуации на первом цикле обучения:

т.к. начальные значения весовых коэффициентов c_i(0) = 0 .
Таким образом, величина абсолютной ошибки формирования выходного сигнала для первой ситуации на первом цикле обучения:

D E₁(1) = E₁ .

Для второй ситуации:

На втором цикле:

D E₁(2) = – Z₁₂ · (E₂ – E₁ · Z₂₁) ,
D E₂(2) = (E₂ – E₁ · Z₂₁) · (Z₂₁ · Z₁₂) ,

На последующих циклах обучения величины абсолютных ошибок выходных сигналов определяются выражениями

D E₁(t) = – Z₁₂ · (E₂ – E₁·Z₂₁) · (Z₂₁·Z₁₂)^t–2 , _________________(2.10)
D E₂(t) = (E₂ – E₁·Z₂₁) · (Z₂₁·Z₁₂)^t–1 .__________________ _____(2.11)

Анализ выражений (2.10) и (2.11) показывает, что скорость обучения выработке выходных сигналов для двух ситуаций зависит от соотношения величин требуемых сигналов E₁ и E₂ и от значений коэффициентов приведения образа первой ситуации к образу второй – Z₂₁ и образа первой ситуации к образу первой – Z₁₂.

Величина, определяемая выражением

характеризует степень сходства (совпадения) двух образов и не может быть больше единицы.
Соответственно, величина D, равная:

D = 1 – S ,

характеризует степень отличия (различия) двух образов.

Если соответствующие признаки образов полностью совпадают или отличаются друг от друга в одной и той же пропорции, то S=1, при этом обучение возможно только в случае, если требуемые выходные сигналы отличаются в той же пропорции, что и их признаки. В общем случае S<1, и, чем меньше значение S, тем быстрее идет обучение. При S=0, когда для всех признаков двух образов ситуаций один из соответствующих друг другу признаков имеет нулевое значение (полное отличие образов), для обучения достаточно одного цикла. В терминах векторной алгебры, степень совпадения двух образов равна квадрату косинуса угла между векторами B₁ (b₁₁, b₂₁, b₃₁, ... , b_m1) и B₂ (b₁₂, b₂₂, b₃₂, ... , b_m2).

С учетом (2.12) выражения (2.10) и (2.12) примут вид:

D E₁(t) = – Z₁₂ · (E₂ – E₁·Z₂₁) · S ^t–2 , ______________________(2.13)
D E₂(t) = (E₂ – E₁·Z₂₁) · S ^t–1 . ____________________________(2.14)

Из выражений (2.13) и (2.14) можно определить необходимое для обучения число циклов, если задаться допустимыми отклонениями формирования выходных сигналов d _E . При симметричном допуске на выходные сигналы обучение можно считать законченным, когда для всех образов значения абсолютных ошибок сигналов будет отвечать условию: D E £ d _E / 2. Тогда число циклов находится из выражений:

или:

t₁ = log_S { – d _E1/ [2 Z₁₂ · (E₂ – E₁·Z₂₁)]} + 2 , _________(2.15)
t₂ = log_S { d _E2 / [2 (E₂ – E₁·Z₂₁)]} + 1 , ______________(2.16)

где d _E1 и d _E2 – допустимые отклонения формирования выходных сигналов для первого и второго образов, симметричные относительно номинальных значений.
Как видно из выражений (2.15) и (2.16) зависимость продолжительности обучения от заданной точности определяется логарифмическим законом.
Большее из двух значений t₁ и t₂ является необходимым числом циклов обучения формированию выходных сигналов для двух образов с заданной точностью.
Весовые коэффициенты каждого признака образа ситуации, сформировавшиеся после t циклов обучения, определяются выражением

Зная необходимое число циклов обучения, значения признаков и требуемых выходных сигналов двух образов, по формуле (2.17) можно вычислить значения весовых коэффициентов всех признаков образов, обеспечивающих заданную точность формирования выходных сигналов.
Для двух образов, отвечающих условию S < 1 , значения весовых коэффициентов стремятся к пределу, определяемому по формуле

другими словами, для двух образов, степень отличия которых: D>0, – процесс обучения сходится всегда.

2.2.2. Закономерности процесса обучения системы управления при последовательном предъявлении ситуаций

Процедура обучения состоит в поочередном предъявлении ситуаций обучаемой выборки, причем каждое предъявление ситуации – это шаг обучения. На каждом шаге обучения происходит корректировка проводимостей резисторных элементов преобразующей матрицы. Обучение может быть циклическим, когда предъявление ситуаций обучаемой выборки повторяется в одном и том же порядке до конца обучения. Может быть установлен и любой другой определенный порядок предъявления ситуаций. Кроме этого, обучение может быть произвольным (неупорядоченным), когда порядок предъявления ситуаций не устанавливается и может носить случайный характер.

Допустим, для обучения робота с обучаемой системой управления использовалось N ситуаций, составляющих обучаемую выборку. Обучение закончилось за M шагов. Для определения закономерностей процесса обучения будем рассматривать обучение не как циклическое, произвольное или с заданным порядком предъявления ситуаций, а как последовательное предъявление M ситуаций. Такое представление включает в себя все многообразие возможных процедур обучения. Кроме этого, реально при обучении методом “вождения за руку” ситуации абсолютно точно могут и не повторяться вообще, однако такое обучение возможно, и его можно считать последовательным. Далее обучение может идти с учетом фактора времени, т.е. в систему очувствления могут быть включены датчики времени, и уже поэтому такие ситуации не могут повториться (как говаривал Гераклит: “Нельзя дважды войти в одну и ту же реку”). Такое обучение может быть только последовательным. В связи с этим следует отметить, что обучение биологических систем (выработка условных рефлексов), строго говоря, – последовательное [67].

Можно показать, что, исходя из формул алгоритма обучения, величина фактического сигнала управления по шагам обучения будет изменяться следующим образом.

Примем исходные значения весовых коэффициентов равными нулю, тогда на первом шаге обучения получим фактическое значение выходного сигнала E₁^(f) = 0.

После корректировки весовых коэффициентов на этом шаге обучения получим выходной сигнал, равным E₁.

Фактический выходной сигнал на втором шаге обучения будет определяться весовыми коэффициентами, полученными после первого шага обучения и равными

в соответствии с формулой

Подставив (2.18) в (2.19), получим

E₂^(f) = E₁·Z₂₁ ,

где Z₂₁ – коэффициент приведения второй ситуации к первой.
Повторив те же математические операции, на третьем шаге обучения, получим:

E₃^(f) = E₂·Z₃₂ + E₁· (Z₃₁ – Z₂₁·Z₃₂) ,

где Z₃₁ – коэффициент приведения третьей ситуации к первой,
Z₃₂ – коэффициент приведения третьей ситуации ко второй.

На четвертом шаге обучения:

E₄^(f) = E₃·Z₄₃+ E₂· (Z₄₂–Z₃₂·Z₄₃) + E₁· (Z₄₁– Z₂₁·Z₄₂– Z₃₁·Z₄₃+ Z₂₁·Z₃₂·Z₄₃) ,

На пятом шаге обучения:

E₅^(f) = E₄·Z₅₄+ E₃· (Z₅₃– Z₄₃·Z₅₄) + E₂· (Z₅₂– Z₃₂·Z₅₃– Z₄₂·Z₅₄+ Z₃₂·Z₄₃·Z₅₄) +
+ E₁· (Z₄₁ – Z₂₁·Z₅₂ – Z₃₁·Z₅₃ – Z₄₁·Z₅₄ + Z₂₁·Z₃₂·Z₅₃ + Z₂₁·Z₄₂·Z₅₄ + Z₃₁ ·Z₄₃ ·Z₅₄ – Z₂₁ ·Z₃₂ ·Z₄₃ ·Z₅₄) ,

и т.д.

Число членов с одинаковым числом сомножителей Z в скобках соответствует числам так называемого треугольника Паскаля, каждое из которых получается сложением соседних чисел вышестоящей строки:

1
1____1
1____2____1
1____3____3____1
1____4____6____4____1
1____5____10____10____5____1
1____6____15____20____15____6___01
._._._._._._._._._._._._._._._._._._._._._._._._.

Так число членов с одинаковым числом сомножителей Z в скобках четвертого слагаемого соответствует четвертой строке треугольника Паскаля.
Таким образом, на любом шаге величина фактического сигнала управления обучения будет определяться выражением

где Г(a ,b ) = 1 при a =1, при b =1 и при a =b ;
Г(a ,b ) = a –1 при b =2 ,
Г(a ,b ) = b при a – b =1 и
Г(a ,b ) = Г(a –1, b –1) + Г(a –1, b ) при a – b > 1 ,

Индексы J₁ и J₂ чередуются определенным образом, охватывая ситуации в интервале от j–a до j .
При d = 1 первый индекс J₁(j,a ,b ,d ,g ) = j – a ,
во всех остальных случаях J₁(j,a ,b ,d ,g ) = J₂(j,a ,b ,d –1,g ) .
При d = b второй индекс J₂(j,a ,b ,d ,g ) = j ,
если d ¹ b и g = 1 , то J₂(j,a ,b ,d ,g ) = J₁(j,a ,b ,d ,g )+1 ,
если d ¹ b и g ¹ 1 и при этом для данного g индекс J₂ уже рассчитывался по формуле: J₂(j,a ,b ,d ,g ) = J₂(j,a ,b ,d ,g –1)+1 , то в этом случае второй индекс будет определяться выражением: J₂(j,a ,b ,d ,g ) = J₂(j,a ,b ,d –1,g )+1, если d ¹ b и g ¹ 1 и при этом для данного g индекс J₂ еще не рассчитывался по формуле: J₂(j,a ,b ,d ,g ) = J₂(j,a ,b ,d ,g –1)+1, и выполняется условие, которое заключается для b –d ³ 2 в том, что ни при каких f, изменяющихся в пределах от b до d +2 не может быть J₂(j,a ,b ,f,g –1) – J₁(j,a ,b ,f,g –1) > 1, а для b –d =1, наоборот, должно быть J₂(j,a ,b ,f,g –1) – J₁(j,a ,b ,f,g –1) > 1 при f=b , то в этих случаях второй индекс будет определяться выражением: J₂(j,a ,b ,d ,g ) = J₂(j,a ,b ,d ,g –1)+1 ,
в остальных случаях: J₂(j,a ,b ,d ,g ) = J₂(j,a ,b ,d ,g –1) .

Формула (2.20) показывает, что фактический сигнал управления в некоторой ситуации зависит от всех предшествующих ситуаций, в которых происходила корректировка весовых коэффициентов: как от возбуждений рецепторов в этих ситуациях, так и от заданных для них выходных сигналов.
Соответственно, значения весовых коэффициентов при последовательном обучении на j-м шаге обучения (в j-й ситуации) можно определить по формуле:

где Г(a ,b ) = 1 при a = b и при a =1,
Г(a ,b ) = a при b = 1 и при a – b = 1 , и
Г(a ,b ) = Г(a –1, b –1) + Г(a –1, b ) , при a – b > 1 ,
индексы J₁ и J₂ определяются аналогично тому, как это делается в формуле (2.20), а индекс J₃ равен значению индекса J₂ при d = b .

2.2.3. Обучение с масштабированием подобных ситуаций

В процессе обучения и работы обучаемой системы управления могут возникать ситуации, соответствующие признаки которых отличаются друг от друга в одно и то же число раз (для двух образов: b_i2 = k · b_i1). Это возможно, например, при изменении уровня освещенности обозреваемой сцены. Такие ситуации являются подобными, а величина k – отношение подобия этих ситуаций. Обучение формированию сигналов управления исполнительным двигателем, не отвечающих условию: E₂ = k · E₁, для таких ситуаций невозможно. Для преодоления этого ограничения в изображения этих ситуаций можно искусственно ввести дополнительный масштабирующий признак некоторой постоянной величины, например на дополнительный рецептор подавать постоянный сигнал для всех ситуаций.
Степень совпадения двух ситуаций S определяется выражением 2.12. Для подобных ситуаций S = 1. Оптимальный масштабирующий признак должен быть таким, чтобы значение степени совпадения для данных двух ситуаций стало минимальным. При использовании масштабирования степень совпадения двух ситуаций будет иметь вид

Отсюда следует, что степень совпадения двух ситуаций будет минимальной при

Для двух подобных ситуаций оптимальный масштабирующий признак определится как

Из выражений (2.21) и (2.22) следует, что минимальная степень совпадения двух подобных ситуаций, достигаемая масштабированием, определяется только отношением подобия k и связана с ним зависимостью

S_min = 4 k / (1 + k)² .___________________(2.23)

В качестве примера рассматриваются две ситуации, представленные наборами признаков:

B₁: ___ 2 __ 8 __ 1 __ 5 __ 4 __ 7 __ 3 _ 11 __ 9 __ 6 ;
B₂: ___ 6 _ 24 __ 3 _. 15 _ 12 _ 21 __ 9 _ 33 _. 27 _ 18 .

Здесь число признаков: m = 10 , отношение подобия: k = 3 , степень совпадения ситуаций: S = 1 . Оптимальный масштабирующий признак, определенный по формуле (2.22), будет иметь значение b_m+1= 34,899857. Степень совпадения для масштабированных ситуаций

B₁^*: ___ 2 __ 8 __ 1 __ 5 __ 4 __ 7 __ 3 _ 11 __ 9 __ 6 _ 34,899857;
B₂^*: ___ 6 _ 24 __ 3 _. 15 _ 12 _. 21 __ 9 _ 33 _ 27 _ 18 _ 34,899857,

в соответствии с формулами (2.21) и (2.23), имеет значение S_M = 0,75 .

Кроме формирования отличительности подобных ситуаций, масштабирование может быть использовано и для сокращения длительности обучения, причем не только для подобных ситуаций. Если обучателю известны значения сигналов управления, соответствующие двум ситуациям, то из анализа зависимостей ошибок сигналов управления от числа циклов обучения (2.15, 2.16) может быть найдено значение масштабирующего признака, обеспечивающего минимальную продолжительность обучения. Так, оптимальный масштабирующий признак, определенный по формуле

или для подобных ситуаций:

позволяет осуществить обучение за один цикл.
Для двоичных ситуаций, признаки которых могут принимать только два значения: ноль и единицу, – формула (2.24) примет вид

где n – число совпадающих признаков двоичных ситуаций, k₁ – число единичных признаков первой ситуации.
Для рассматриваемых ситуаций B₁ и B₂ с соответствующими выходными сигналами E₁ = 1 и E₂ = 2 оптимальный масштабирующий признак, определенный по формуле (2.25), будет иметь значение: b_m+1= 20,149442.
На рис.2.2 показана зависимость степени отличия D рассматриваемых ситуаций и числа циклов обучения t от величины масштабирующего признака b_m+1 при заданной точности выходных сигналов d _E= ± 0,1.

1 – график зависимости t = f(b_m+1) для ситуаций с признаками B₁ и B₂ при E₁ = 1 , E₂ = 2;
2 – график зависимости t = f(b_m+1) для ситуаций с признаками B₁ и B₂ при E₁ = 2 , E₂ = 1
Рис.2.2. Зависимость продолжительности обучения от значения
масштабирующего признака для подобных образов

Следует отметить, что масштабирование обеспечивает сходимость процесса обучения для любых двух подобных ситуаций.

2.2.4. Влияние заданной точности выходных сигналов на продолжительность обучения

Важным фактором, влияющим на продолжительность обучения обучаемой системы, является заданная точность формирования выходных сигналов в ситуациях обучаемой выборки.

Методика исследования. Исследование проводилось с использованием математической модели процесса обучения. Обучение проводилось для наборов из пяти образов с числом признаков: m = 10. В качестве значений признаков брались случайные целые числа в пределах от 0 до 9. Значения выходных сигналов принимались равными порядковому номеру образа в наборе: для первого образа E₁ = 1, для второго E₂ = 2 и т.д. Вначале допустимое отклонение выходных сигналов задавалось в пределах d _E= ± 0,01. Затем допустимое отклонение расширялось до d _E = ± 0,5 с дискретой, равной 0,01. Для каждого значения d _E определялось число шагов обучения, необходимое для получения выходных сигналов с заданной точностью и характеризующее продолжительность обучения.

Полученные результаты. Зависимость продолжительности обучения от заданной точности рассмотрим на примере обучения для семи наборов образов:

1) ___5___0___3___5___8___0___3___8___6___3________E₁ = 1;
_____6___8___3___6___8___1___3___6___1___4________E₂ = 2;
_____6___9___1___6___9___1___4___7___9___4________E₃ = 3;
_____7___9___2___4___0___2___5___7___0___5________E₄ = 4;
_____7___0___2___5___8___3___5___8___0___3________E₅ = 5;

2) ___9___4___6___9___1___4___9___2___4___7________E₁ = 1;
_____2___2___7___9___2___4___7___2___5___7________E₂ = 2;
_____0___2___5___0___2___5___8___0___5___8________E₃ = 3;
_____0___3___5___8___3___6___8___1___3___8________E₄ = 4;
_____1___3___6___9___1___6___9___1___4___6________E₅ = 5;

3) ___8___9___4___6___9___1___4___6___2___4________E₁ = 1;
_____0___9___2___7___9___2___5___7___2___5________E₂ = 2;
_____7___0___2___5___0___3___5___8___0___5________E₃ = 3;
_____8___0___3___6___8___3___6___8___1___3________E₄ = 4;
_____8___1___4___6___9___1___6___9___1___4________E₅ = 5;

4) ___0___3___6___1___3___6___8___1___3___9________E₁ = 1;
_____4___4___6___9___4___6___9___1___4___7________E₂ = 2;
_____2___4___7___9___8___7___9___2___5___7________E₃ = 3;
_____0___5___7___0___2___5___0___3___5___8________E₄ = 4;
_____0___3___8___0___3___6___8___3___6___8________E₅ = 5;

5) ___3___6___8___1___3___9___1___4___6___9________E₁ = 1;
_____5___6___9___1___4___7___2___4___7___9________E₂ = 2;
_____2___4___0___2___5___7___0___5___7___0________E₃ = 3;
_____2___5___0___3___5___8___0___3___8___1________E₄ = 4;
_____3___6___8___3___6___8___1___3___6___1________E₅ = 5;

6) ___2___7___0___3___5___8___0___5___8___0________E₁ = 1;
_____6___5___1___3___6___8___1___3___8___1________E₂ = 2;
_____4___6___9___4___6___5___1___4___6___2________E₃ = 3;
_____4___7___9___2___7___9___2___4___7___0________E₄ = 4;
_____5___7___0___2___5___0___3___5___8___0________E₅ = 5;

7)_ __9___1___4___6___9___2___7___9___2___4________E₁ = 1;
_____0___2___5___7___0___2___7___0___2___5________E₂ = 2;
_____7___0___5___8___0___3___5___0___3___6________E₃ = 3;
_____8___1___3___8___1___3___6___8___4___6________E₄ = 4;
_____9___1___4___6___1___4___6___9___2___7________E₅ = 5.

В результате исследований получены значения чисел шагов обучения, необходимых для достижения заданной точности, определяемой значениями допусков на выходные сигналы d _E. Эти значения представлены на рис.2.3:

Рис.2.3. Зависимость числа шагов обучения N_ш от заданных значений допусков d _E

При использовании логарифмической шкалы для заданных значений допусков d _E график примет следующий вид:

Рис.2.4. Зависимость числа шагов обучения N_ш от заданных значений допусков d _E ,
представленных логарифмической шкалой

Выводы. Полученные результаты согласуются с формулами (2.15) и (2.16) и подтверждают вывод о том, что число шагов обучения, необходимых для достижения требуемой точности, определяется по логарифмическому закону [62]:

N_ш = K₁ – K₂ · lg d _E ,

где K₁ и K₂ – постоянные для каждой конкретной обучаемой выборки, определяемые образами выборки и заданными выходными сигналами для них.
Как заданная точность влияет на продолжительность обучения, видно из графиков на рис.2.3 и рис.2.4: чем выше требуемая точность, тем дольше обучение. Из этого следует вывод о том, что не следует предъявлять повышенные требования к точности обучаемых систем там, где в этом нет особой необходимости.

2.2.5. Влияние отличительности образов ситуаций обучаемой выборки на продолжительность обучения

Методика исследования. Влияние отличительности и заданной точности выходных сигналов на продолжительность обучения рассмотрим на примере обучения для двух бинарных образов с числом признаков m = 10. Все признаки одного из образов примем равными единице. Значения признаков другого образа будем изменять следующим образом: вначале только один из признаков зададим равным единице, остальные – равными нулю, затем добавим еще один единичный признак и так далее до девяти единичных признаков второго образа. Число n нулевых признаков второго образа, отнесенное к общему числу признаков m, определяет степень отличия двух данных образов. Для одного из образов выходной сигнал задавался равным единице (E₁ = 1), для другого – двум (E₂=2), затем требуемые сигналы менялись (E₁=2, E₂=1). При обучении использовалось три варианта порядка предъявления образов: 1 – обучение начиналось с образа, содержащего нулевые признаки и с заданным сигналом, равным единице; 2 – обучение начиналось с образа со всеми единичными признаками и с заданным сигналом, равным единице; 3 – обучение начиналось с образа со всеми единичными признаками и с заданным сигналом, равным двум (рис.2.5, рис.2.6).

Рис.2.5. Зависимость числа шагов обучения N_ш для двух образов от степени
их совпадения S=1–n/m с заданной точностью обучения d _E= ± 0,1 ед.;

Рис.2.6. Зависимость числа шагов обучения N_ш для двух образов от степени
их совпадения S=1–n/m с заданной точностью обучения d _E = ± 0,01 ед.;

Полученные результаты. В общем случае, чем больше отличительность образов обучаемой выборки, тем быстрее заканчивается обучение до заданной точности, однако определенное соотношение выходных сигналов и отличительности ситуаций приводит к более быстрому обучению, что видно на графиках (рис.2.5, рис.2.6) в точках, после которых дальнейшее увеличение отличительности приводит к некоторому увеличению продолжительности обучения.
Для двух образов с произвольными значениями признаков зависимость числа шагов обучения от степени совпадения образов показана на графике, представленном на рис.2.7. Число признаков m было принято равным 10. Значения выходных сигналов E равнялись 3 и 5 с точностью d _E = ± 0,01. В качестве значений признаков брались случайные целые числа в пределах от 0 до 9. Рассматривались два порядка предъявления образов: 1 – когда первым предъявлялся образ с выходным сигналом равным 3; 2 – когда первым предъявлялся образ с выходным сигналом равным 5.

Рис.2.7. Зависимость числа шагов обучения N_ш для двух образов от степени их совпадения S

Более четко прослеживается зависимость числа циклов обучения N_ц от степени совпадения образов (рис.2.8).

Рис.2.8. Зависимость числа циклов обучения N_ц для двух образов от степени их совпадения S

Из графиков видно, что для образов с S = 0 (полное отличие образов) обучение заканчивается за один цикл. То же самое происходит и для образов, степень совпадения которых S=E₂/E₁, в нашем случае при S = 0,6 , причем первый образ не должен содержать нулевые признаки, которые во втором образе имеют ненулевое значение. При S, стремящейся к 1, число циклов обучения резко возрастает, а при S = 1 обучение становится невозможным кроме как для образов, отношение подобия которых отвечает условию: E₂ = k ·E₁ (см. п.2.2.3).

Выводы. Система очувствления обучаемой системы управления должна строиться таким образом, чтобы воспринимать как можно больше отличительных признаков в ситуациях, которые возникают при решении требуемой задачи, чтобы степень совпадения образов обучаемой выборки была минимальной, что значительно ускоряет обучение системы.
Пользуясь описанной выше методикой, совместную зависимость продолжительности обучения от степени совпадения двух образов и заданной точности можно представить в виде пространственного графика (рис.2.9):

Рис.2.9. Пространственный график зависимости числа шагов обучения N_ш для двух образов
от степени их совпадения S и заданной точности обучения d _E

2.2.6. Влияние порядка предъявления ситуаций обучаемой выборки на продолжительность обучения

Анализ влияния порядка предъявления ситуаций на продолжительность обучения будем проводить с помощью вычислительной модели обучаемой системы управления. В качестве примера рассмотрим два варианта обучения для пяти ситуаций с десятью числовыми признаками (таблица 1).

Таблица 1

№ п/п

Ситуации обучаемой выборки

Сигналы
управления
E

b₁

b₂

b₃

b₄

b₅

b₆

b₇

b₈

b₉

b₁₀

8____8____6____3____1____1____6____4____4____2

7____2____0____5____0____7____8____5____3____1

6____3____8____4____1____9____4____2____9____4

2____0____7____2____0____5____3____0____6____1

8____6____4____9____6____4____9____7____4____9

Допуск на значения сигналов управления: d _E = ± 0,1 .

Первый вариант обучения:

Порядок предъявления ситуаций – циклический. Число шагов обучения, необходимых для достижения заданной точности: 225. Значения полученных в результате обучения весовых коэффициентов признаков:

___ ___0,277424; __–0,398268; ___0,391117; ___0,294749; ___0,171608;
___ ___0,102080; ___0,475452; __–0,008366; ___0,034453; ___0,045794.

Полученные в результате обучения фактические выходные сигналы в ситуациях обучаемой выборки имеют следующие значения:

______E_f1=0,943592; ___E_f2=1,931619; ___E_f3=3,079798; ___E_f4=3,940933; ___E_f5=5,000000.

Процесс приближения фактических сигналов управления к заданным значениям по шагам обучения при циклическом предъявлении ситуаций представлен на рис.2.10.

Рис.2.10. Обучение при циклическом предъявлении ситуаций

Второй вариант обучения:

При этом варианте после каждого шага обучения определяются значения абсолютных ошибок для сигналов управления во всех ситуациях, и на следующем шаге предъявляют ситуацию, в которой ошибка сигнала управления была самой большой. Обучение до заданной точности закончилось за 153 шага. Значения весовых коэффициентов признаков, полученных в результате обучения:

______–0,269060; __–0,387141; ___0,392780; ___0,289534; ___0,166311;
______–0,105657; ___0,475572; __–0,007025; ___0,034779; ___0,039230.

______E_f1=1,079238; ___E_f2=1,963388; ___E_f3= 3,098165; ___E_f4=3,936747; ___E_f5=5,000000.

На рис.2.11 показан процесс приближения фактических сигналов управления к заданным значениям по шагам обучения для второго варианта предъявления ситуаций.

Рис.2.11. Обучение с выбором на каждом шаге обучения ситуации с максимальной ошибкой выходного сигнала

Уменьшение числа шагов обучения при втором варианте обучения носит устойчивый характер, т.е. имеет место при любых образах и заданных выходных сигналах.
Для данного примера число шагов, необходимых для достижения заданной точности при обучении по второму варианту, почти в полтора раза меньше, чем по первому варианту. Значения весовых коэффициентов признаков для двух вариантов близки и при уменьшении допуска на сигналы управления будут еще больше сближаться.
Из приведенных графиков видно, как изменяются значения фактических сигналов управления по шагам обучения: на начальном этапе формируются сигналы управления, которые не соответствуют заданным значениям, затем значения сигналов приближаются к некоторой средней величине, и далее – расходятся, стремясь к заданным величинам до тех пор, пока не войдут в пределы допусков на сигналы управления.
Рассмотренные варианты отражают реальные процессы обучения объектов, оснащенных обучаемыми системами управления. Так, при обучении робота обучатель может, используя метод “вождения за руку”, многократно циклически повторять движения робота в режиме обучения, добиваясь того, что робот будет двигаться с заданной точностью, необходимой для выполнения поставленной задачи. Таким образом реализуется первый вариант обучения. Того же результата обучатель может добиться, если по ходу движений робота будет подавать сигналы коррекции лишь в тех ситуациях, в которых сигналы управления исполнительными двигателями имеют наибольшие отклонения от требуемых значений, т.е. реализовывать второй вариант обучения, который позволяет значительно сократить его продолжительность.
Алгоритм обучения, оптимизированный с точки зрения порядка предъявления образов ситуаций, представлен на рис.2.12:

Рис.2.12. Оптимизированный алгоритм расчета весовых коэффициентов

2.2.7. Влияние способа дробления входной информации на продолжительность обучения

Признаковое представление информации позволяет использовать дробление выходного сигнала датчика с широким диапазоном измерения параметра, охватывающего весь диапазон его изменения, на узкие интервалы изменения параметра и установление для каждого интервала своего весового коэффициента, что соответствует кусочно-линейной аппроксимации зависимости сигнала управления исполнительным двигателем от значений входных параметров. Дробление информации может быть различным: простым, когда диапазон измерения разбивается на равные интервалы; разрядным, когда диапазон измерения разбивается на разряды: единицы, десятки, сотни и т.д.; переменным, когда диапазон измерения разбивается более часто в рабочем интервале изменения параметра и менее часто в нерабочих интервалах; другие виды дробления.
Рассмотрим влияние дробления информации на скорость обучения системы управления. Допустим, сигнал управления отдельным исполнительным двигателем в j-й ситуации связан с тремя параметрами нелинейной зависимостью:

E_j = a_1j + a_2j² + a_3j³ .

В качестве системы очувствления использованы три датчика с широким диапазоном измерения. При этом, сигнал управления будет связан с показаниями датчиков b зависимостью:

E_j = b_1j + b_2j² + b_3j³ .

Для использования обучаемой системы управления эту зависимость необходимо привести к виду (2.1), т.е. при отсутствии дробления показаний датчиков сигнал управления определится как:

E_j = c₁b_1j + c₂b_2j + c₃b_3j .

Процесс обучения заключается в циклическом переборе ситуаций обучаемой выборки и определении коэффициентов c_i на каждом шаге обучения по алгоритму (2.5).

В обучаемую выборку входят три ситуации:

1) b₁₁ = 3 ; _ b₂₁ = 2 ; _ b₃₁ = 1 ; __ сигнал управления E₁ = 8 ;
2) b₁₂ = 3 ; _ b₂₂ = 3 ; _ b₃₂ = 2 ; __ сигнал управления E₂ = 20 ;
3) b₁₃ = 2 ; _ b₂₃ = 4 ; _ b₃₃ = 3 ; __ сигнал управления E₃ = 45 .

Обучение считается законченным, если фактическое значение сигнала управления не выходит за пределы допустимого: E_j + d _E (принимаем d _E = 0,1). Для определения степени адаптивности использованы контрольные ситуации:

4) b₁₄ = 1 ; _ b₂₄ = 3 ; _ b₃₄ = 3 ; __ сигнал управления E₄= 37 ;
5) b₁₅ = 2 ; _ b₂₅ = 4 ; _ b₃₅ = 1 ; __ сигнал управления E₅ = 19 .

Число циклов обучения без использования дробления параметров составило: t = 7817. Получены следующие значения весовых коэффициентов: c₁ = –12,856242; c₂ = 34,468731; c₃ = –22,368735, которые обеспечивают следующие фактические значения сигналов управления в контрольных ситуациях: E_f4 = 1,075011; E_f5 = –15,881226.

Для различных вариантов дробления информации результаты обучения имеют вид:

1 вариант.

Этот вариант дробления параметров заключается в следующем: диапазон изменения параметра разбивается на интервалы, соответствующие единице измерения параметра. Если значение параметра перекрывает данный интервал или входит в него, то значение признака, соответствующего этому интервалу, принимаем равным единице, в противном случае значение признака равно нулю.

Ситуации обучаемой выборки (верхний индекс в скобках – номер дробимого параметра, первый нижний индекс – номер полученного в результате дробления обезличенного признака, второй нижний индекс – номер ситуации):
1) b_1,1⁽¹⁾=1; _b_2,1⁽¹⁾=1; _b_3,1⁽¹⁾=1; _b_4,1⁽²⁾=1; _b_5,1⁽²⁾=1; _b_6,1⁽²⁾=0; _b_7,1⁽²⁾=0; _b_8,1⁽³⁾=1; _b_9,1⁽³⁾=0; _b_10,1⁽³⁾=0; __сигнал управления E₁ = 8;
2) b_1,2⁽¹⁾=1; _b_2,2⁽¹⁾=1; _b_3,2⁽¹⁾=1; _b_4,2⁽²⁾=1; _b_5,2⁽²⁾=1; _b_6,2⁽²⁾=1; _b_7,2⁽²⁾=0; _b_8,2⁽³⁾=1; _b_9,2⁽³⁾=1; _b_10,2⁽³⁾=0; __сигнал управления E₂ = 20;
3) b_1,3⁽¹⁾=1; _b_2,3⁽¹⁾=1; _b_3,3⁽¹⁾=0; _b_4,3⁽²⁾=1; _b_5,3⁽²⁾=1; _b_6,3⁽²⁾=1; _b_7,3⁽²⁾=1; _b_8,3⁽³⁾=1; _b_9,3⁽³⁾=1; _b_10,3⁽³⁾=1; __сигнал управления E₃ = 45.

Контрольные ситуации:
4) b_1,4⁽¹⁾=1; _b_2,4⁽¹⁾=0; _b_3,4⁽¹⁾=0; _b_4,4⁽²⁾=1; _b_5,4⁽²⁾=1; _b_6,4⁽²⁾=1; _b_7,4⁽²⁾=0; _b_8,4⁽³⁾=1; _b_9,4⁽³⁾=1; _b_10,4⁽³⁾=1; __сигнал управления E₄ = 32,892045;
5) b_1,5⁽¹⁾=1; _b_2,5⁽¹⁾=1; _b_3,5⁽¹⁾=0; _b_4,5⁽²⁾=1; _b_5,5⁽²⁾=1; _b_6,5⁽²⁾=1; _b_7,5⁽²⁾=1; _b_8,5⁽³⁾=1; _b_9,5⁽³⁾=0; _b_10,5⁽³⁾=0; __сигнал управления E₅ = 29,729593.

Число циклов обучения: t=26. Весовые коэффициенты признаков:
c₁ = 2,880595; ___ c₂ = 2,880595; ___ c₃ = –6,402976; ___ c₄ = 2,880595; ___ c₅ = 2,880595; ___ c₆ = 6,043047; ___ c₇ = 9,283571; ___ c₈ = 2,880595; ___ c₉ = 6,043047; ___ c₁₀ = 9,283571.

Фактические значения сигналов управления в контрольных ситуациях:
E_f4 = 32,892045, ошибка D E_f4 = 4,107955; ___E_f5 = 29,729593, ошибка D E_f5 = 10,729593.

2 вариант.

Для этого варианта дробления, как и для первого диапазон изменения параметра разбивается на интервалы, соответствующие единице изменения параметра. Если значение параметра входит в интервал, то значение признака, соответствующего этому интервалу принимаем равным единице, в противном случае значение признака равно нулю.

Ситуации обучаемой выборки для этого варианта дробления примут вид:
1) b_1,1⁽¹⁾=0; _b_2,1⁽¹⁾=0; _b_3,1⁽¹⁾=1; _b_4,1⁽²⁾=0; _b_5,1⁽²⁾=1; _b_6,1⁽²⁾=0; _b_7,1⁽²⁾=0; _b_8,1⁽³⁾=1; _b_9,1⁽³⁾=0; _b_10,1⁽³⁾=0; __сигнал управления E₁ = 8;
2) b_1,2⁽¹⁾=0; _b_2,2⁽¹⁾=0; _b_3,2⁽¹⁾=1; _b_4,2⁽²⁾=0; _b_5,2⁽²⁾=0; _b_6,2⁽²⁾=1; _b_7,2⁽²⁾=0; _b_8,2⁽³⁾=0; _b_9,2⁽³⁾=1; _b_10,2⁽³⁾=0; __сигнал управления E₂ = 20;
3) b_1,3⁽¹⁾=0; _b_2,3⁽¹⁾=1; _b_3,3⁽¹⁾=0; _b_4,3⁽²⁾=0; _b_5,3⁽²⁾=0; _b_6,3⁽²⁾=0; _b_7,3⁽²⁾=1; _b_8,3⁽³⁾=0; _b_9,3⁽³⁾=0; _b_10,3⁽³⁾=1; __сигнал управления E₃ = 45.

Контрольные ситуации:
4) b_1,4⁽¹⁾=1; _b_2,4⁽¹⁾=0; _b_3,4⁽¹⁾=0; _b_4,4⁽²⁾=0; _b_5,4⁽²⁾=0; _b_6,4⁽²⁾=1; _b_7,4⁽²⁾=0; _b_8,4⁽³⁾=0; _b_9,4⁽³⁾=0; _b_10,4⁽³⁾=1; __сигнал управления E₄ = 37;
5) b_1,5⁽¹⁾=0; _b_2,5⁽¹⁾=1; _b_3,5⁽¹⁾=0; _b_4,5⁽²⁾=0; _b_5,5⁽²⁾=0; _b_6,5⁽²⁾=0; _b_7,5⁽²⁾=1; _b_8,5⁽³⁾=1; _b_9,5⁽³⁾=0; _b_10,5⁽³⁾=0; __сигнал управления E₅ = 19.

Число циклов обучения: t = 3. Весовые коэффициенты признаков:
c₁ = 0,000000; ___ c₂ =15,000000; ___ c₃ = 7,017833; ___ c₄ = 0,000000; ___ c₅ = 0,526749; ___ c₆ = 6,491084; ___ c₇ =15,000000; ___ c₈ = 0,526749; ___ c₉ = 6,491084; ___ c₁₀ =15,000000.

Фактические значения сигналов управления в контрольных ситуациях:
E_f4 = 21,491084, ошибка D E_f4 = 15,508916; ___E_f5 = 30,526749, ошибка D E_f5 = 11,526749.

Идея дробления входной информации была изложена в заявке на изобретение ? 4242260/24 от 16 февраля 1987 г., схема которого представлена на рис.2.13.

Рис.2.13. Обучаемая система управления с реализацией дробления входных сигналов
1 – входы, 2 – диоды, 3 – плюс-резисторы, 4 – минус-резисторы, 5 – сумматоры-вычитатели,
6 – выход, 7 – преобразующее устройство, 8 – РАУ (разрядно-аналоговое устройство), 9 – входы РАУ.

Выводы. Из рассмотренного примера видно, что дробление информации позволяет использовать линейную модель для определения сигнала управления отдельным исполнительным двигателем объекта управления, сократить продолжительность обучения, увеличить точность сигналов управления, повысить адаптивность системы управления.
Следует отметить, что при дроблении параметров интервалы дробления могут дублироваться, перекрывать частично или полностью интервалы других признаков. В этом смысле дробление параметров в обучаемых системах управления перекликается с методами нечеткой логики. В отличие от традиционной формальной логики, оперирующей физическими параметрами, точными и четкими понятиями типа истина и ложь, да и нет, ноль и единица, нечеткая логика имеет дело со значениями, лежащими в некотором (непрерывном или дискретном) диапазоне. Функция принадлежности элементов к заданному множеству также представляет собой не жесткий порог "принадлежит – не принадлежит", а плавную сигмоиду, проходящую все значения от нуля до единицы [53]. Разница лишь в том, что в обучаемых системах управления принадлежность признака некоторому интервалу носит не вероятностный характер, а вполне конкретна.

2.3. Имитационное моделирование обучения системы управления решению некоторых задач

“Рефлекс цели имеет огромное жизненное значение, он есть основная форма жизненной энергии каждого из нас”
И.П.Павлов. “Рефлекс цели”
2.3.1. Имитационное моделирование процесса обучения поиску заданного предмета

Обучаемые системы управления позволяют использовать в процессе обучения не все возможные ситуации, общее количество которых может быть огромным, а только те, которые характерны для достижения поставленной перед роботом цели и необходимы по мнению обучателя. Прежде всего, в обучаемую выборку входят, очевидно, целевые ситуации, количество которых в каждой отдельной задаче невелико. Например, в задачах поиска, уклонения и в некоторых случаях автоматического регулирования (при одноэкстремальной оптимизации) используется по одной целевой ситуации, а в задачах раскладки-сортировки предметов и сборки узлов количество целевых ситуаций соизмеримо с числом обрабатываемых предметов. Кроме целевых ситуаций в обучаемую выборку должны входить некоторые другие дополнительные, опорные ситуации. Обучаемые системы управления не предъявляют жестких требований ни к выбору дополнительных ситуаций, ни к их количеству: дело обучателя – какие ситуации вводить в обучаемую выборку, а какие нет, т.е. реализуется активный метод обучения. Представляется возможным, в качестве дополнительных принимать не только конкретные ситуации, взятые из живого опыта, но и собирательные или обобщенные ситуации [68, 73]. Рассмотрим пример использования в обучаемой выборке обобщенных ситуаций и оценим их эффективность.

Допустим, требуется обучить робот поиску предмета (ключа), произвольно расположенного среди прочих предметов. Совместим технический глаз робота с его схватом. Такая схема расположения глаз, кстати, широко распространена в животном мире, особенно у хищников, которым приходится преследовать и хватать подвижную добычу. Роль схвата при этом играет пасть животного, заданной цели – его жертва.
Имитационное моделирование обучения поиску цели проведем используя вычислительную модель обучаемой системы управления.
Примем, что система очувствления робота включает 25 фотоэлектрических рецепторов сетчатки технического глаза и один датчик команды на поиск. Будем считать, что возбуждение фотоэлектрического рецептора прямо пропорционально зависит от степени затемнения его окна изображением предмета и может изменяться в пределах b_1...25= (0 , . . . , 10,0). Датчик наличия искомого предмета – двоичный: b₂₅ = (0; 1). Технический глаз может перемещаться по относительным координатным осям x и y и вращаться вокруг своей оси. Двигатели по всем координатным осям (x, y, a ) управляются по скорости, т.е. сигналы управления E(x), E(y) и E(a ) определяют скорость движения технического глаза по соответствующей оси.
Примем ограничения, продиктованные относительной системой координат. Платформа, на которой располагаются предметы, имеет ограждения для предотвращения выхода технического глаза за ее пределы. Стержень ключа должен быть направлен вправо. Исходное положение глаза – слева от искомого предмета. Принятые ограничения примерно соответствуют тем, которые используются в задаче поиска и человеком.
Целевой ситуацией данной задачи является положение, когда сетчатка технического глаза совмещена с искомым ключом, при этом стержень ключа направлен вдоль оси x (рис.2.14,а). В этой ситуации обучатель, очевидно, должен задавать сигналы управления по всем координатным осям равными нулю: E(x) = 0; E(y) = 0; E(a ) = 0.
В пассивном режиме обучения в качестве дополнительных ситуаций обучаемой выборки необходимо было бы “проиграть” все возможные ситуации при различном наборе посторонних предметов и при различном их расположении на платформе. С появлением некоторого опыта обучения обучаемую выборку можно сократить за счет использования наиболее характерных дополнительных ситуаций.
Но наиболее эффективным методом обучения является метод с использованием обобщенных ситуаций. К ним можно отнести прежде всего ситуацию, когда в поле зрения технического глаза нет никаких предметов, т.е. возбуждения всех рецепторов сетчатки равны нулю (рис.2.14,б,слева). Обобщенной ситуацией, отражающей попадание в поле зрения глаза любого предмета, кроме искомого, является полное перекрытие поля зрения, когда максимально возбуждены все рецепторы сетчатки (рис.2.14,б,справа). И в том и в другом случаях скорость движения по оси x можно задать любой положительной. По оси y смещение глаза должно быть всегда в сторону любого предмета, попавшего в его поле зрения (рис.2.14,в). Технический глаз должен поворачиваться вокруг своей оси, если обобщенный продолговатый предмет расположен в его поле зрения повернутым на некоторый угол (рис.2.14,г).

Рис.2.14. Ситуации обучаемой выборки для обучения поиску ключа

Допустимые отклонения на сигналы управления E(x), E(y) и E(a ) в целевой ситуации должны быть малыми с тем, чтобы обеспечить точный захват предмета. В дополнительных ситуациях требования к точности сигналов управления могут быть снижены вплоть до обеспечения лишь заданного направления движения. Такое снижение требований к точности способствует сокращению длительности обучения.
Важное значение имеет соотношение номинальных величин сигналов управления E(x), E(y) и E(a ) во всех дополнительных ситуациях, которое должно выбираться таким, чтобы предотвратить проскакивание глаза мимо искомого предмета. Из этих же соображений должна выбираться ширина платформы.
Целью обучения является формирование весовых коэффициентов c_i(k) отдельно по каждой координатной оси k. Обучение сводится к согласованию сигналов управления E_j(k) с соответствующими ситуациями обучаемой выборки.
В обучаемых системах управления коррекция весовых коэффициентов c_i(k) на каждом шаге обучения (при предъявлении очередной ситуации обучаемой выборки) производится автоматически и одновременно. Величина поправки D c_i(k) определяется возбуждением соответствующего рецептора b_i и общей командой на коррекцию, задаваемой обучателем из соображений устранения рассогласований D E_j(k). При этом все рецепторы оказываются обезличенными, т.е. обучатель не имеет дела с каждым рецептором в отдельности. При использовании вычислительной модели обучаемой системы управления (формула 2.5) коррекция каждого весового коэффициента осуществляется отдельно.
После завершения процесса обучения (при достижении заданной точности сигналов управления в каждой ситуации обучаемой выборки) получены следующие значения весовых коэффициентов c_i(k) (табл. 2.):
Таблица 2

Весовые коэффициенты рецепторов

Номер
рецептора

По оси
X

По оси
Y

Поворот
a

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

0,0913176
0,0913176
0,0913176
0,0913176
0,0913176
– 0,0445715
– 0,1193106
– 0,0139965
0,0913176
0,0913176
– 0,0785438
– 0,2484054
– 0,2484054
– 0,1804608
– 0,1668719
– 0,0445715
– 0,1193106
– 0,0139965
0,0913176
0,0913176
0,0913176
0,0913176
0,0913176
0,0913176
0,0913176
10,000000

0,1363635
0,1363635
0,1363635
0,2727271
0,2727271
0,1363640
0,1363642
0,1363639
0,2727271
0,2727271
0,0000005
0,0000010
0,0000010
0,0000008
0,0000008
– 0,1363627
– 0,1363625
– 0,1363628
– 0,2727263
– 0,2727263
– 0,1363631
– 0,1363631
– 0,1363631
– 0,2727263
– 0,2727263
0,0000001

– 0,6923000
– 0,6923000
0,0000067
0,6923135
0,6923135
– 0,6923061
– 0,3461527
0,0000087
0,3461635
0,6923135
– 0,0000008
– 0,0000017
– 0,0000017
0,0000012
– 0,0000048
0,6923074
0,3461540
0,0000087
– 0,3461432
– 0,6923000
0,6923135
0,6923135
0,0000067
– 0,6923000
– 0,6923000
– 0,0000001

На рис.2.15 представлена стробоскопия движения технического глаза при поиске ключа. Построение выполнено следующим образом. В любом положении технического глаза определяются возбуждения b_ij фоторецепторов сетчатки, вычисляются по формуле 2.1 значения сигналов управления E_j по всем осям k , и после этого технический глаз смещается на соответствующие расстояния в определенном направлении. Движение начинается с исходного, крайнего левого положения при наличии на платформе искомого предмета (b₂₆ = 1). Для усложнения поиска на платформе находятся посторонние предметы, площадь изображения которых равна, больше или меньше площади изображения ключа.

Рис.2.15. Стробоскопия движения технического глаза при поиске ключа
1 – сетчатка рецепторов; 2 – датчик наличия искомого предмета; 3 – искомый предмет;
4 – посторонние предметы; 5 – платформа; 6 – коридор движения технического глаза

Как видно из рис.2.15, технический глаз реагирует на каждый предмет, попадающий в его поле зрения: смещается в его сторону, замедляет свою скорость при приближении к нему и ориентируется относительно его продольной оси, однако не останавливается ни на одном из искомых предметов. Только при попадании в поле зрения ключа, после необходимой ориентации, глаз останавливается. Цель достигнута.
Поиск можно повторить при ином взаимном расположении предметов, при наличии других посторонних предметов, при иной ориентации ключа, и всегда он будет успешным при условии правильного обучения.
Обучаемые системы управления могут обучаться в пассивном режиме, когда обучатель, методом “понукания” или “вождения за руку”, “натаскивает” объект управления на достижение поставленной цели в условиях реальной обстановки. Так, в рассмотренном примере поиска ключа, обучатель должен был бы в процессе обучения использовать ситуации с различными положениями искомого и посторонних предметов, с различным набором посторонних предметов и т.д. Другими словами, в обучаемую выборку должно было бы войти большое число конкретных ситуаций. При этом появление на платформе после завершения обучения иных посторонних предметов вынуждало бы обучателя в общем случае продолжать процесс обучения.
Иное дело – обучение в активном режиме, когда ситуации обучаемой выборки формируются такими, чтобы каждая из них отражала целый класс конкретных ситуаций, процесс обучения при этом значительно упрощается.
Использованные в данном примере обобщенные ситуации, за исключением, может быть, обобщенного совокупного изображения посторонних предметов, не могут быть рекомендованы на все случаи жизни, однако пример их использования говорит о целесообразности создания своего рода сборника обобщенных ситуаций и рекомендаций по их применению. Часть из этих обобщенных ситуаций может оказаться всеобъемлющей и пригодной в большинстве случаев обучения, другие же будут использоваться реже, и обязательным может оказаться включение в обучаемую выборку конкретных (не только целевых) ситуаций. Такой вывод следует из того, что процесс обучения системы в принципе не имеет конца, и причиной того могут оказаться изменение характеристик и выходы из строя элементов системы, что требует дообучения (вместо ремонта), а также возникновение в процессе работы ситуаций, непредвиденных на этапе обучения.
Возможность обучения с использованием обобщенных ситуаций говорит об адаптивности обучаемых систем, выражающейся в неоднозначности поведения при сохранении способности к достижению поставленной при обучении цели.
Частными случаями решения задачи поиска можно считать решения задач отслеживания траектории (рис.2.16), преследования подвижного предмета (рис.2.17), уклонения от препятствий (рис.2.18).

Рис.2.16. Стробоскопия движения технического глаза при отслеживании траектории
1 – сетчатка 5х5 ячеек; 2 – след траектории

Рис.2.17. Стробоскопия движения технического глаза при преследовании подвижного объекта
1 – сетчатка 5х5 ячеек; 2 – подвижный объект

Рис.2.18. Стробоскопия движения технического глаза при уклонении от препятствий
1 – сетчатка 5х5 ячеек; 2 – препятствия

Обучение выполнению задач поиска, уклонения, отслеживания и преследования, позволяет решать более сложные задачи, состоящие из различных комбинаций рассмотренных действий, например поиск и преследование цели или поиск цели с одновременным уклонением от препятствий.

2.3.2. Имитационное моделирование процесса обучения воспроизведению образов

Важной характеристикой обучаемых систем управления является их способность решать задачи воспроизведения образов.
Задача воспроизведения образа заключается в том, что в каждый момент времени уже воспроизведенная часть образа является ситуацией, которая заставляет объект управления продолжать воспроизведение остальной части образа [83]. Полностью воспроизведенный образ является целевой ситуацией в этой задаче. К таким задачам воспроизведения образа можно отнести покраску, написание знаков, изготовление деталей из заготовок и т.д.

Рис.2.19. Сетчатка технического глаза

Допустим, технический глаз имеет сетчатку 5х7 рецепторов. В зависимости от степени затемнения рецептора величина возбуждения может изменяться от 0 до 100. Пронумеруем рецепторы в соответствии с рис.2.19. Для обучения используем восемь опорных (рис.2.20, а, б, в, г, д, е, ж, з) и одну целевую ситуации (рис.2.20, и). Образы этих ситуаций характеризуются наборами чисел, отражающих степень затемнения рецепторов, и расположенных в порядке нумерации рецепторов.
В качестве примера решения задачи обучения воспроизведению образа рассмотрим вычислительную модель воспроизведения изображения цифры “8”.
Обучение проведем отдельно по каждой из осей координат. Сигналы управления в ситуациях обучаемой выборки зададим таким образом, чтобы результирующее движение исполнительного органа (например руки робота с краскопультом) было направлено по траектории написания цифры “8”. Заданную точность обучения в ситуациях выборки примем равной ± 0,1 ед.

Рис.2.20. Образы обучаемой выборки для обучения воспроизведению цифры “8”

Значения возбуждений рецепторов, расположенные построчно, образуют образы ситуаций обучаемой выборки:

Образы ситуаций обучаемой выборки: ______________________________________________________________________________Сигналы
_________________ ____________________________________________________________________________________________управления:
Опорные ситуации:_______________________________________________________________________________________________E_X__E_Y

1)_0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0_79__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0______10__–10 ;
2)_0__0__0__0__0_30_35__0__0__0_25_80_20__0__0__0_30_84__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0_______0__–10 ;
3)_5_60_85__0__0_37_60__2__0__0_25_80_20__0__0__0_30_84__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0______10____0 ;
4)_5_60_98_60__5_37_60__4_55_37_25_80_20__5__5__0_30_84__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0_______0___10 ;
5)_5_60_98_60__5_37_60__4_60_38_25_80_38_80_25__0_30_89_30__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0_____–10___10 ;
6)_5_60_98_60__5_37_60__4_60_38_25_80_38_80_25__0_50_95_30__0_25_80_20__0__0_30_35__0__0__0__0__0__0__0__0_______0___10 ;
7)_5_60_98_60__5_37_60__4_60_38_25_80_38_80_25__0_50_95_30__0_25_80_20__0__0_37_60__2__0__0__5_60_85__0__0______10____0 ;
8)_5_60_98_60__5_37_60__4_60_38_25_80_38_80_25__0_50_95_30__0_25_80_20__5__5_37_60__4_55_37__5_60_98_60__5_______0__–10 .

Целевая ситуация:
9)_5_60_98_60__5_37_60__4_60_38_25_80_38_80_25__0_50_100_50_0_25_80_38_80_25_37_60__4_60_38__5_60_98_60__5_______0____0 .

В результате расчета по алгоритму обучения получили следующие весовые коэффициенты:

по оси X:
___1) _0,004553; ___2) _0,054633; ___3) _0,061531; ___4) –0,073227; ___5) –0,006102;
___6) _0,033779; ___7) _0,054736; ___8) –0,000620; ___9) –0,073307; __10) –0,046393;
__11) _0,022837; __12) _0,073080; __13) –0,003988; __14) –0,098842; __15) –0,030833;
__16) _0,000000; __17) _0,045960; __18) –0,127815; __19) –0,030965; __20) _0,000000;
__21) _0,023194; __22) _0,074220; __23) _0,024073; __24) _0,016237; __25) –0,000623;
__26) _0,034086; __27) _0,054805; __28) –0,000915; __29) –0,072762; __30) –0,049674;
__31) _0,004467; __32) _0,053600; __33) _0,058373; __34) –0,081049; __35) –0,006754;

по оси Y:
___1) _0,003798; ___2) _0,045577; ___3) _0,079047; ___4) _0,066830; ___5) _0,005569;
___6) _0,004934; ___7) _0,018544; ___8) _0,003747; ___9) _0,060418; __10) _0,041043;
__11) –0,000319; __12) –0,001021; __13) –0,003290; __14) –0,007076; __15) _0,002197;
__16) _0,000000; __17) _0,001678; __18) –0,126559; __19) _0,029360; __20) _0,000000;
__21) _0,002576; __22) _0,008244; __23) _0,033037; __24) _0,122757; __25) _0,028106;
__26) –0,002304; __27) –0,015663; __28) –0,004066; __29) –0,060829; __30) –0,044989;
__31) –0,003854; __32) –0,046246; __33) –0,081927; __34) –0,075746; __35) –0,006312.

Теперь, если поместить в начало траектории рабочий орган, то сумма весовых коэффициентов, помноженных на соответствующие возбуждения рецепторов, будет определять сигнал управления движением по отдельной координате. Перемещаясь одновременно по двум координатам, исполнительный орган будет формировать изображение, которое в свою очередь будет изменять сигналы управления двигателями в соответствии с проведенным обучением. Таким образом воспроизводится изображение цифры “8”. Похоже на то, как знаменитый Мюнхаузен сам себя вытаскивал за волосы из болота.

Процесс воспроизведения изображения цифры “8” был смоделирован на персональном компьютере. Методика моделирования заключалась в следующем. Участок экрана монитора размером 200х280 пикселей белого цвета разбиваем на 35 ячеек размером 40х40 пикселей. Задаем начальное положение черного круга радиусом 20 пикселей в центре участка. Далее следует циклический опрос ячеек. На каждом цикле считается число пикселей черного цвета в каждой ячейке, которое делится на 1600 (общее число пикселей ячейки) и умножается на 100. Получаем степень затемнения отдельной ячейки. Умножаем ее на весовой коэффициент данной ячейки для оси X. Сложив полученные данные для всех ячеек, получаем управляющий сигнал перемещения центра черного круга по оси X. Аналогично получаем управляющий сигнал перемещения центра черного круга по оси Y. Наконец перемещаем центр круга по осям X и Y пропорционально полученным управляющим сигналам и переходим к следующему циклу опроса ячеек с учетом уже полученного затемнения ячеек. И так – многократно, пока не закончится воспроизведение образа. Все положения черного круга в ходе воспроизведения дадут стробоскопию его движения (рис.2.21).

Рис.2.21. Стробоскопия воспроизведения изображения цифры “8”

На стробоскопии хорошо видно, как при приближении к целевой ситуации (завершении воспроизведения) уменьшается скорость движения центра черного круга и при достижении цели становится равной нулю.
Это – пример того, как компьютер был обучен именно писать заданный символ, а не извлекать заложенное в память компьютера изображение.
Правильность воспроизведения изображения цифры “8” можно улучшить увеличив число промежуточных ситуаций обучаемой выборки.
Следует обратить внимание на то, что никакого образа цифры “8” не хранится в памяти компьютера, не задана и траектория движения темного круга. Примерно также мы заучиваем и воспроизводим, скажем, стихотворение, когда каждая произнесенная строка вызывает собой следующую. В том, что это так, можно убедиться, попробовав рассказать казалось бы хорошо выученное стихотворение в обратном порядке, начиная с последней строки и заканчивая первой.
Работа обучаемых систем управления в зависимости от окружающей ситуации определяет их удивительное свойство, которое заключается в компенсации погрешностей работы одного исполнительного двигателя работой других. На рис.2.22 показаны стробоскопии воспроизведения изображения цифры “8” с искажением управляющих сигналов перемещения по оси x (рис.2.22, а) в 1,2 раза и по оси y (рис.2.22, б) в 1,5 раза. Как видим, такое значительное искажение управляющих сигналов приводит к довольно незначительному искажению воспроизведенного образа.

Рис.2.22. Стробоскопия воспроизведения изображения цифры “8”
а) сигналы по оси x в 1,2 раза меньше расчетных;
б) сигналы по оси y в 1,5 раза меньше расчетных

Такая компенсация погрешностей управляющих сигналов происходит потому, что управляющие сигналы по осям формирует уже воспроизведенная часть заданного образа, и отклонение этой части от заданных параметров изменяет управляющие сигналы таким образом, что траектория воспроизведения восстанавливается.
Воспроизведение изображения цифры “8” интересно тем, что в зависимости от уже воспроизведенной части образа траектория движения в средней точке (точке симметрии) имеет три различных направления.

Рассмотрим обучение воспроизведению несимметричного изображения цифры “2”.

Образы ситуаций обучаемой выборки: _______________________________________________________________________________Сигналы
________________________________________________________________________________________________________\______управления:
Опорные ситуации(рис.2.23,а,б,в,г,д,е,ж,и,з):____ ______________________________________________________________________E_X__E_Y

1)_0__0__0__0__0__0__0__0__0__0__0_78__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0______–10__–10;
2)_3__5__0__0__0_40_50__0__0__0_15_85__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0________5__–10;
3)_7_75_85__0__0_40_65__1__0__0_15_85__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0_______10____0;
4)_7_75_98_75__7_40_65__2_55_35_15_85__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0________0___10;
5)_7_75_98_75__7_40_65__2_60_40_15_85__0_70_25__0__0__0_10__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0__0______–10___15;
6)_7_75_98_75__7_40_65__2_60_40_15_85__2_75_25__0__0_47_65__0__0__0_20__5__0__0__0__0__0__0__0__0__0__0__0______–10___15;
7)_7_75_98_75__7_40_65__2_60_40_15_85__2_75_25__0__0_50_65__0__0_30_85__5__0__6_90_25__0__0_10_30__0__0__0_______–5___10;
8)_7_75_98_75__7_40_65__2_60_40_15_85__2_75_25__0__0_50_65__0__0_30_85__5__0__7_90_25__0__0_40_50__0__0__0_______20____0;
9)_7_75_98_75__7_40_65__2_60_40_15_85__2_75_25__0__0_50_65__0__0_30_85__5__0__7_90_25__0__0_40_100_80_0__0_______20____0.

Целевая ситуация (рис.2.23,к):
10)_7_75_98_75_7_40_65__2_60_40_15_85__2_75_25__0__0_50_65__0__0_30_85__5__0__7_90_25_0_0_40_100_100_100_40_______0____0.

В результате расчета по алгоритму обучения получили следующие весовые коэффициенты:

по оси X:
___1) _0,011381; ___2) _0,029500; ___3) _0,001939; ___4) –0,070359; ___5) –0,006567;
___6) _0,142883; ___7) _0,181098; ___8) –0,000772; ___9) –0,060293; __10) –0,041530;
__11) _0,053581; __12) –0,126725; __13) _0,000906; __14) –0,119481; __15) –0,043481;
__16) _0,000000; __17) _0,000000; __18) _0,018941; __19) _0,007525; __20) _0,000000;
__21) _0,000000; __22) –0,023518; __23) –0,041896; __24) _0,002265; __25) _0,000000;
__26) _0,016455; __27) –0,070555; __28) –0,019599; __29) _0,000000; __30) _0,000000;
__31) _0,626929; __32) _0,300566; __33) –0,186764; __34) –0,141061; __35) –0,056424;

по оси Y:
___1) _0,002964; ___2) _0,051224; ___3) _0,073581; ___4) _0,066136; ___5) _0,006173;
___6) _0,000546; ___7) _0,011644; ___8) _0,001613; ___9) _0,052559; __10) _0,034923;
__11) _0,000205; __12) –0,128136; __13) –0,000253; __14) _0,056207; __15) _0,020300;
__16) _0,000000; __17) _0,000000; __18) –0,005709; __19) _0,001167; __20) _0,000000;
__21) _0,000000; __22) _0,002324; __23) _0,002507; __24) –0,000632; __25) _0,000000;
__26) –0,007867; __27) _0,006972; __28) _0,001937; __29) _0,000000; __30) _0,000000;
__31) –0,249166; __32) –0,117595; __33) _0,072399; __34) –0,011669; __35) –0,004668.

Стробоскопия воспроизведения изображения цифры “2” представлена на рис.2.23,л.

Рис.2.23. Образы ситуаций обучаемой выборки и стробоскопия воспроизведения изображения цифры “2”

Если полученные весовые коэффициенты представить в виде оптических фильтров соответствующих участков сетчатки, степень затемнения каждого из которых пропорциональна значению его весового коэффициента, то получим негативы оптических преобразователей для воспроизведения цифр “8” (рис.2.24,а) и “2” (рис.2.24,б) в виде оптических фильтров.

Рис.2.24. Оптические фильтры воспроизведения
а) цифры “8”
б) цифры “2”

Как видно из рис.2.24, весовые коэффициенты обучаемой системы управления (резисторные или оптические) не содержат эталонов ситуаций обучаемой выборки, а отражают весь процесс обучения. Если данные оптические фильтры выполнить в виде позитивов, то они реально могут быть использованы в оптической обучаемой системе управления для воспроизведения цифр “8” и “2” (см.раздел 5.1).
Из рисунка видно так же, как обучаемые системы управления решают проблему выделения так называемых значимых и незначимых признаков, весьма сложную для теории распознавания образов. Нет необходимости заранее определять степени значимости признаков (как это делается при распознавании образов), их значимость формируется автоматически в процессе обучения. Те рецепторы, весовые коэффициенты которых, сформированные в процессе обучения, имеют большее абсолютное значение – более значимы, и наоборот. Рецепторы, весовые коэффициенты которых равны нулю, воспринимают признаки, незначимые для решения данной задачи (рецепторы 16 и 20 – для воспроизведения образа цифры “8”; рецепторы 16, 17, 20, 21, 25, 29, 30 – для воспроизведения образа цифры “2”). Причем, наличие этих рецепторов, т.е. избыточность информации, никак не влияет на способность обучаемой системы выполнять поставленную задачу.

2.3.3. Имитационное моделирование процесса обучения распознаванию образов (ситуаций)

В процессе управления подвижным объектом обучаемой системой управления процедура распознавания образов отсутствует, однако существуют задачи, для которых распознавание является конечным результатом и имеет самостоятельное значение, например в экспертных системах.
Обучаемые системы управления могут быть использованы для решения таких задач, которые относятся к задачам распознавания образов [64, 65], например для распознавания букв и цифр. Точнее будет назвать это не распознаванием, а формированием выходного сигнала, соответствующего коду образа. Рассмотрим это на примере обучения распознаванию цифр 1, 2, 3 различного написания (см.рис.2.25 а, б).

Рис.2.25. Изображения цифр на сетчатке 5х5 рецепторов

Представим изображения цифр в виде наборов чисел, характеризующих степень затемнения изображением рецепторов сетчатки 5х5. Представим полученные числа в порядке их соответствия рецепторам сетчатки – слева-направо и сверху-вниз (возможен и любой другой порядок, но одинаковый для всех изображений). Зададим для каждого изображения требуемый выходной сигнал обучаемой системы, равный значению изображенной цифры. Получим следующие ситуации обучаемой выборки:

1а)__ 0__1__9__0__0__0__1__2__0__0__0__0__7__0__0__0__0__7__0__0__0__0__7__0__0; ___E₁ = 1;
1б)__ 0__0__6__2__0__0__2__2__0__0__0__2__4__0__0__0__5__1__0__0__1__4__1__0__0; ___E₂ = 1;
2а)__ 0__9__7__9__0__0__7__0__8__0__0__0__5__5__0__0__5__5__0__0__0__9__7__7__0; ___E₃ = 2;
2б)__ 1__5__5__4__0__2__8__3__7__0__0__2__1__7__0__3__5__6__2__3__3__3__4__7__3; ___E₄ = 2;
3а)__ 0__7__7__9__0__0__1__6__4__0__0__2__7__9__0__0__2__0__7__0__0__9__7__9__0; ___E₅ = 3;
3б)__ 1__2__2__3__0__4__6__4__7__0__0__5__8__8__0__2__4__1__7__0__1__6__5__3__0; ___E₆ = 3.

Процесс обучения, проводимый в соответствии с алгоритмом обучения, будем считать законченным после того, как отклонения выходных сигналов не будут превышать значения d _E=± 0,001.

Полученные значения весовых коэффициентов рецепторов сетчатки (слева-направо и сверху-вниз):
_1) _0,00786; ____2) _0,00294; ____3) _0,00666; ____4) _0,01344; ____5) _0,00000;
_6) _0,03048; ____7) _0,02261; ____8) _0,04225; ____9) _0,03587; ___10) _0,00000;
11) _0,00000; ___12) _0,04168; ___13) _0,05806; ___14) _0,06894; ___15) _0,00000;
16) _0,01622; ___17) _0,01386; ___18) –0,00826; ___19) _0,07253; ___20) _0,00146;
21) _0,00790; ___22) _0,03321; ___23) _0,03256; ___24) _0,02441; ___25) _0,00146,

– гарантированно обеспечивают заданные значения выходных сигналов для изображений, которые использовались при обучении. Однако следует сказать, что близкие значения выходных сигналов будут получены и при других вариантах написания этих же цифр, но примерно того же размера и толщины линии. Допустимое отклонение здесь можно принять равным d _E = ± 0,5.
В качестве примера предъявим обученной системе изображения цифр, которые не использовались для ее обучения:

Рис.2.26. Изображения цифр на сетчатке 5х5 рецепторов, которые не использовались для обучения

Перемножив степень затемнения каждой ячейки (рис.2.26) с ее весовым коэффициентом и просуммировав полученные 25 чисел, получим: для первого образа выходной сигнал E=1,034477, для второго образа E=2,135356 и для третьего образа E=2,574109. Как видим, полученные значения выходных сигналов находятся в пределах допустимых значений.
Если бы выходной сигнал для какого-либо из образов цифр вышел за пределы допустимого значения, то этот образ следовало бы включить в обучаемую выборку и провести дообучение системы.
Очевидно, что, чем больше вариантов написания знаков использовать при обучении, тем надежнее будет распознавание этих знаков в любом произвольном написании. Здесь можно провести аналогию с тем, что ученики начальных классов практически не могут прочитать текст, написанный “взрослым” почерком, а в выпускных классах уже сами пишут так, что учителя не всегда в состоянии распознать их произведения.
Если полученные весовые коэффициенты представить в виде оптических фильтров соответствующих участков сетчатки, степень затемнения каждого из которых пропорциональна значению его весового коэффициента, то получим негативы оптических преобразователей для распознавания цифр “1”, “2” и “3” в виде оптических фильтров (рис.2.27).

Рис.2.27. Оптические фильтры распознавания цифр “1”, “2” и “3”

Как видно из рис.2.27, весовые коэффициенты обучаемой системы управления (резисторные или оптические) не содержат эталонов образов цифр “1”, “2” и “3”. Если данные оптические фильтры выполнить в виде позитивов, то они реально могут быть использованы в оптической обучаемой системе управления для распознавания изображений цифр “1”, “2” и “3” (см.раздел 5.1).
Следует особо отметить, что результат распознавания никак не связан с общей площадью затемнения сетчатки изображением цифры. Так для изображений цифры “3” можно задать выходной сигнал равный единице, а для изображений цифры “1” – равный трем и провести обучение системы. В результате при предъявлении изображения цифр “3”, система будет формировать выходной сигнал близкий к единице, а при предъявлении изображений цифр “1” – близкий к трем.
Способность обучаемых систем распознавать образы может быть использована для построения обучаемых экспертных систем [69]. Экспериментальный вариант такой системы был реализован в рамках хозяйственного договора “Разработка и внедрение диагностики оборудования листопрокатного производства ЛПЦ-5” между ЛипПИ и НЛМК (1987–1988 гг) при распознавании состояния узлов и деталей прокатного стана и печей обжига по их тепловым портретам, полученным с помощью тепловизора ТВ-03. Результаты работы отражены в разделе “Обучаемые системы диагностики” заключительного отчета о НИР.

Рис.2.28. Тепловые портреты деталей и узлов прокатного стана

Тепловые портреты (рис.2.28) являются высоко информативными с точки зрения характеристики работы оборудования, в то же время их информация сильно зашумлена и носит избыточный характер. Обучаемые системы не чувствительны к избыточности и зашумленности информации, поэтому использование их в этом случае является эффективным.
Для каждого объекта формируется обучаемая выборка из тепловых портретов в различном его состоянии. Для каждого теплового портрета задается определенный код, который обозначает состояние объекта. Тепловые портреты разбиваются на участки, и чем мельче эти участки, тем большую точность распознавания можно получить. Для каждого участка по алгоритму обучения рассчитывается его весовой коэффициент. В процессе работы произведения степени затемненности участков помноженные на их весовые коэффициенты суммируются, и полученное значение сравнивается с набором кодов обучаемой выборки. Наиболее близкое значение кода характеризует текущее состояние объекта.
Следует отметить, что при решении задач распознавания образов обучаемые системы управления являются только частью распознающей системы, формирующей код предъявленного образа, по которому другое устройство, например компьютер, относит образ к определенному классу. Такую систему можно рассматривать как один из множества возможных вариантов систем распознавания образов.
Способность обучаемых систем управления решать задачи распознавания образов может быть использована в системе управления робота для оценки окружающей его ситуации. Это позволит, к примеру, отключать робот при попадании в его рабочую зону человека, обеспечивая его безопасность, иными словами, совершать акт управления роботом.
Таким образом, для обучаемых систем управления задача распознавания образов является частной задачей управления, но не является необходимым этапом для управления подвижным объектом в недетерминированной окружающей его обстановке.

[Вернуться к оглавлению]

Site of Information Technologies
Designed by inftech@webservis.ru.

Весовые коэффициенты рецепторов
Номер рецептора	По оси X	По оси Y	Поворот a
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26	0,0913176 0,0913176 0,0913176 0,0913176 0,0913176 – 0,0445715 – 0,1193106 – 0,0139965 0,0913176 0,0913176 – 0,0785438 – 0,2484054 – 0,2484054 – 0,1804608 – 0,1668719 – 0,0445715 – 0,1193106 – 0,0139965 0,0913176 0,0913176 0,0913176 0,0913176 0,0913176 0,0913176 0,0913176 10,000000	0,1363635 0,1363635 0,1363635 0,2727271 0,2727271 0,1363640 0,1363642 0,1363639 0,2727271 0,2727271 0,0000005 0,0000010 0,0000010 0,0000008 0,0000008 – 0,1363627 – 0,1363625 – 0,1363628 – 0,2727263 – 0,2727263 – 0,1363631 – 0,1363631 – 0,1363631 – 0,2727263 – 0,2727263 0,0000001	– 0,6923000 – 0,6923000 0,0000067 0,6923135 0,6923135 – 0,6923061 – 0,3461527 0,0000087 0,3461635 0,6923135 – 0,0000008 – 0,0000017 – 0,0000017 0,0000012 – 0,0000048 0,6923074 0,3461540 0,0000087 – 0,3461432 – 0,6923000 0,6923135 0,6923135 0,0000067 – 0,6923000 – 0,6923000 – 0,0000001