Сеть с линейным поощрением

⇐ ПредыдущаяСтр 4 из 56Следующая ⇒

Созданы сети, промежуточные по отношению к обучению с учителем и без него. В качестве такой модели рассмотрим сеть с линейным поощрением. Эта модель обучается с учителем, т.е. требует знания и выходных, и входных векторов при обучении. Однако в обратном направлении распространяется ограниченный объем информации, меньший, чем при обратном распространении.

Все сигналы в сети лежат в интервале [0, 1]. Сеть послойно полносвязная, как и многослойный перцептрон и содержит три слоя нейронов.

Последний, третий слой состоит из обычных формальных нейронов с детерминированным поведением и непрерывными выходными сигналами:

Скрытый слой состоит из стохастических нейронов с двумя значениями выхода, 0 и 1. Каждое из выходных значений принимается с вероятностями:

Первый слой не выполняет вычислений, а лишь распределяет входные сигналы по нейронам второго слоя.

Обучающее множество {x^s,d^s} содержит известные пары выходных и входных векторов, как и в алгоритме обратного распространения, s =1...S — номер эталона в обучающем множестве. Функцию ошибки выберем нормированной и линейной, чтобы ее можно было трактовать как вероятность:

где N_O — количество выходов сети. За счет нормирования E^s Î[0;1].

Выходной слой обучается обычным способом, коррекции весов выходного слоя:

Второй слой обучается с поощрением и наказанием. Введем градационный сигнал r, характеризующий качество выходного результата. Возможны два варианта.

1. Дискретный градационный сигнал с двумя возможными значениями, 0 и 1, с вероятностями

p(r =0)=E^s, p(r =1)=1−E^s

2. Непрерывный градационный сигнал, r =1−E^s.
В обратном направлении распространяется только градационный сигнал, а не полная информа
ция об ошибке по каждому выходу, как в обратном распространении.

Коррекции весов во втором слое выбираются в виде:

где ε — скорость обучения; λ<<1 — цена ошибки (в нейронных сетях, в отличие от задач поиска сигналов, цена ошибки намного меньше цены правильного решения).

Чтобы лучше понять выражение (), запишем его в алгоритмическом виде для дискретного r:
Если r = 1 то { если y_j2 = 1, то вес увеличивается, иначе уменьшается }
Если r = 0 то { если y_j2 = 1, то вес уменьшается, иначе увеличивается }
— такое правило обучения очень напоминает уже знакомое правило Хэбба.

Существует несколько других промежуточных моделей, но сеть с линейным поощрением — одна из немногих успешных.

⇐ Предыдущая 1 2 345 6 7 8 9 10 Следующая ⇒

Date: 2016-05-25; view: 516; Нарушение авторских прав

mydocx.ru - 2015-2025 year. (0.01 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию