03.06.2015

Хеббовское обучение очень наглядно. Его удобно использовать для иллюстрации сути итерационного обучения. Если говорить только об активизирующих связях, то по мере того, как нейрон обучается, его веса настраиваются на определенный образ. Для линейного сумматора активность определяется:

y=iωixi

Совпадение сигнала с образом, который выделяется на синаптических весах, вызывает сильный ответ нейрона, несовпадение – слабый. Обучая по Хеббу, мы усиливаем веса тех синапсов, на которые поступает сигнал в моменты, когда и сам нейрон активен, и ослабляем те веса, на которых в это время нет сигнала.

Чтобы избежать бесконечного роста весов, вводят нормирующую процедуру, которая держит их сумму в определенных границах. Такая логика приводит, например, к правилу Ойа:

ωi(n+1)=ωi(n)+ηy(n)(xi(n)y(n)ωi(n))

Самое неприятное в стандартном Хеббовском обучении – это необходимость вводить коэффициент скорости обучения , который необходимо уменьшать по мере обучения нейрона. Дело в том, что если этого не делать, то нейрон, обучившись на какой-либо образ, затем, если характер подаваемых сигналов изменится, переобучится на выделение нового фактора, характерного для изменившегося потока данных. Уменьшение же скорости обучения, во-первых, естественно, замедляет процесс обучения, а во-вторых, требует не очевидных методов управления этим уменьшением. Неаккуратное обращение со скоростью обучения может привести к «одеревенению» всей сети и невосприимчивости к новым данным.

Все это известно как дилемма стабильности-пластичности. Желание реагировать на новый опыт грозит изменением весов ранее обученных нейронов, стабилизация же приводит к тому, что новый опыт перестает влиять на сеть и просто игнорируется. Приходится выбирать либо стабильность, либо пластичность. Чтобы понять, какие механизмы могут помочь в решении этой проблемы, вернемся к биологическим нейронам. Разберемся чуть подробнее с механизмами синаптической пластичности, то есть с тем, за счет чего происходит синаптическое обучение реальных нейронов.

Суть явления синаптической пластичности в том, что эффективность синаптической передачи не постоянна и может меняться в зависимости от паттерна текущей активности. Причем продолжительность этих изменений может сильно варьироваться и обуславливаться разными механизмами. Различают несколько форм пластичности (рисунок ниже).

030614_1323_1

Динамика изменения синаптической чувствительности. (A) – фасилитация, (B) – усиление и депрессия, (C) – посттетаническая потенция (D) – долговременная потенция и долговременная депрессия (Николлс Дж., Мартин Р., Валлас Б., Фукс П., 2003)

Короткий залп спайков может вызывать облегчение (фасилитацию) выделения медиатора из соответствующей пресинаптической терминали. Фасилитация появляется мгновенно, сохраняется во время залпа и существенно заметна еще около 100 миллисекунд после окончания стимуляции. То же короткое воздействие может привести к подавлению (депрессии) выделения медиатора, длящемуся несколько секунд. Фасилитация может перейти во вторую фазу (усиление), продолжительностью, аналогичной продолжительности депрессии.

Продолжительная высокочастотная серия импульсов обычно называется тетанусом. Название связано с тем, что подобная серия предшествует тетаническому мышечному сокращению. Поступление тетануса на синапс, может вызвать посттетаническую потенцию выделения медиатора, наблюдающуюся в течение нескольких минут.

Повторяющаяся активность может стать причиной долговременных изменений в синапсах. Одна из причин этих изменений – увеличение концентрации кальция в постсинаптической клетке. Сильное увеличение концентрации запускает каскады вторичных посредников, что ведет к образованию дополнительных рецепторов в постсинаптической мембране и общему увеличению чувствительности рецепторов. Более слабое увеличение концентрации дает обратный эффект – уменьшается количество рецепторов, падает их чувствительность. Первое состояние называется долговременной потенцией, второе – долговременной депрессией. Продолжительность таких изменений – от нескольких часов до нескольких дней (Николлс Дж., Мартин Р., Валлас Б., Фукс П., 2003).

То, как изменится чувствительность отдельного синапса в ответ на поступление внешних импульсов, произойдет ли усиление или наступит депрессия, определяется многими процессами. Можно предположить, что главным образом это зависит от того, как складывается общая картина возбуждения нейрона и в какой стадии обучения он находится.

Описанное поведение синаптической чувствительности позволяет далее предположить, что нейрон способен к следующим операциям:

  • достаточно быстро настраиваться на определенный образ – фасилитация;
  • сбрасывать эту настройку через интервал порядка 100 миллисекунд или переводить ее в более продолжительное удержание – усиление и депрессия;
  • сбрасывать состояние усиления и депрессии или переводить их в долговременную потенцию или долговременную депрессию.

Такая этапность обучения хорошо соотносится с концепцией, известной под названием «теория адаптивного резонанса». Эта теория была предложена Стефаном Гроссбергом (Grossberg, 1987), как путь решения дилеммы стабильности-пластичности. Суть этой теории в том, что поступающая информация делится на классы. Каждый класс имеет свой прототип – образ, наиболее точно соответствующий этому классу. Для новой информации определяется, принадлежит ли она к одному из существующих классов, либо она является уникальной, непохожей ни на что предыдущее. Если информация неуникальна, то она используется для уточнения прототипа класса. Если же это что-то принципиально новое, то создается новый класс, прототипом которого ложиться этот образ. Такой подход позволяет, с одной стороны, создавать новые детекторы, а с другой стороны, не разрушать при этом уже созданные.

030614_1323_2

Сеть адаптивного резонанса АРТ

Практическая реализация этой теории – сети АРТ. Сначала сеть АРТ не знает ничего. Первый же поданный на нее образ создает новый класс. Сам образ копируется как прототип класса. Следующие образы сравниваются с существующими классами. Если образ оказывается близок к уже созданному классу, то есть вызывает резонанс, то происходит корректирующее обучение образа класса. Если же образ оказывается уникален и не похож ни на один из прототипов, то создается новый класс, при этом новый образ становится его прототипом.

Если предположить, что формирование нейронов детекторов в коре происходит схожим образом, то фазам синаптической пластичности можно дать следующее толкование:

  • нейрон, еще не получивший специализацию как детектор, но пришедший в активность за счет волновой активации, оперативно меняет веса своих синапсов, настраиваясь на картину активности своего рецептивного поля. Эти изменения носят характер фасилитации и продолжаются порядка одного такта волновой активности;
  • если оказалось, что в ближайшем окружении уже достаточно нейронов-детекторов, настроенных на такой стимул, то нейрон сбрасывается в исходное состояние, в противном случае его синапсы переходят в стадию более длительного удержания образа;
  • Если в течение стадии усиления выполнились определенные условия, то синапсы нейрона переходят в стадию долговременного хранения образа. Нейрон становится детектором соответствующего стимула.

А теперь попробуем немного систематизировать представление о процедурах обучения, уместных для искусственных нейронных сетей. Оттолкнемся от целей обучения. Будем полагать, что нам хочется в результате обучения получить нейроны-детекторы, удовлетворяющие двум основным требованиям:

  • чтобы с их помощью можно было достаточно полно и адекватно описывать все происходящее;
  • чтобы такое описание вычленяло основные закономерности, свойственные происходящим событиям.

Первое позволяет, запоминая, накопить информацию, не упустив при этом детали, которые впоследствии могут оказаться важными закономерностями. Второе обеспечивает наглядность тех факторов в описании, от которых может зависеть принятие решений.

Хорошо известен подход, основанный на оптимальном сжатии данных. Так, например, используя факторный анализ, мы можем получить главные компоненты, на долю которых приходится основная доля изменчивости. Оставив значения нескольких первых компонент и отбросив остальное, мы сможем значительно уменьшить длину описания. Кроме того, значения факторов расскажут нам о выраженности в описываемом событии тех явлений, которым эти факторы соответствуют. Но такое сжатие имеет и обратную сторону. Для реальных событий первые главные факторы объясняют в совокупности обычно лишь небольшой процент общей дисперсии. Каждый их малозначимых факторов хотя и уступает во много раз по величине первым факторам, но именно сумма этих малозначимых факторов отвечает за основную информацию.

Например, если взять несколько тысяч кинофильмов и получить их оценки, проставленные сотнями тысяч пользователей, то с такими данными можно провести факторный анализ. Наиболее значимыми окажутся первые четыре – пять факторов. Они будут соответствовать основным жанровым направлениям кинематографа: боевик, комедия, мелодрама, детектив, фантастика. Для российских пользователей кроме того выделится сильный фактор, описывающий наше старое советское кино. Выделенные факторы имеют простую интерпретацию. Если описать какой-либо фильм в пространстве этих факторов, то это описание будет состоять из коэффициентов, говорящих, насколько тот или иной фактор выражен в данном фильме. Каждый пользователь имеет определенные жанровые предпочтения, которые влияют на его оценку. Факторный анализ позволяет вычленить основные направления этого влияния и превратить их в факторы. Но оказывается, что первые значимые факторы объясняют всего около 25% дисперсии оценок. Все остальное приходится на тысячи остальных мелких факторов. То есть если мы попытаемся сжать описание фильма до его портрета в главных факторах, мы потеряем основной объем информации.

Кроме того, нельзя говорить о неважности факторов с малой объясняющей способностью. Так, если взять несколько фильмов одного режиссера, то их оценки, скорее всего, окажутся тесно коррелированы между собой. Соответствующий фактор будет объяснять существенный процент дисперсии оценок этих фильмов, но только этих. Это значит, что поскольку этот фактор не проявляется в других фильмах, то его объясняющий процент во всем объеме данных будет ничтожен. Но именно для данных фильмов он будет значительно важнее, чем первые главные компоненты. И так практически для всех малых факторов.

Рассуждения, приведенные для факторного анализа, можно переложить и на другие методы кодирования информации. Дэвид Филд в статье 1994 года «Какова цель сенсорного кодирования?» (Field, 1994) рассмотрел подобные вопросы относительно механизмов, свойственных мозгу. Он пришел к выводу, что мозг не занимается сжатием данных и не стремится к компактному виду данных. Мозгу более удобно их разряженное представление, когда имея для описания множество различных признаков, он одновременно использует только малую их часть (рисунок ниже).

030614_1323_3

Компактное кодирование (A) и экономное распределенное кодирование (B) (Field, 1994)

И факторный анализ, и многие другие методы описания отталкиваются от поиска определенных закономерностей и выделения соответствующих факторов или признаков классов. Но часто встречаются наборы данных, где этот подход практически неприменим. Например, если мы возьмем положение часовой стрелки, то окажется, что у нее нет предпочтительных направлений. Она равномерно движется по циферблату, отсчитывая день за днем. Чтобы передать положение стрелки, нам не надо выделять какие-либо факторы, да они и не выделятся, а достаточно разбить циферблат на соответствующие секторы и пользоваться этим разбиением. Очень часть мозг имеет дело с данными, которые не подразумевают деления, учитывающего плотность распределения событий, а просто требуют введения какого-либо интервального описания. Собственно, принцип адаптивного резонанса и предлагает механизм создания такого интервального описания, способный работать даже тогда, когда пространство данных представляет собой достаточно равномерную распределенную среду.

Выделение главных компонент или фиксация прототипов адаптивного резонанса – это далеко не все методы, позволяющие нейронным сетям обучать нейроны-детекторы, удобные для формирования систем описания. Собственно, любой способ, который позволяет либо получить здравое деление на группы, либо выделить какую-либо закономерность, может использоваться нейронной сетью, воспроизводящей кору мозга. Очень похоже, что реальная кора эксплуатирует множество различных методов, не ограничиваясь теми, что мы привели для примера.

источник —>>>

Добавить комментарий

Please log in using one of these methods to post your comment:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s