Основы искусственных нейронных сетейСодержание
- Немного
биологии
- Искусственный
нейрон
- Активационные
функции
- Однослойные
искусственные нейронные сети
- Многослойные
искусственные нейронные сети
- Нелинейная
активационная функция
- Обучение
искусственных нейронных сетей
- Цель
обучения
- Обучение
с учителем
- Обучение
без учителя
Немного биологии
Развитие искусственных нейронных сетей вдохновляется биологией. То
есть, рассматривая сетевые конфигурации и алгоритмы, исследователи делают
это, используя термины характерные для описания организации мозговой
деятельности. Но на этом аналогия, пожалуй, заканчивается. Наши знания о
работе мозга столь ограничены, что мало бы нашлось ориентиров для тех, кто
стал бы ему подражать. Поэтому разработчикам сетей приходится выходить за
пределы современных биологических знаний в поисках структур, способных
выполнять полезные функции.
Начнем с рассмотрения биологического прототипа - нейрона. Нейрон
является нервной клеткой биологической системы. Он состоит из тела и
отростков, соединяющих его с внешним миром (рис. 1.1). Отростки, по
которым нейрон получает возбуждение, называются дендритами. Отросток, по
которому нейрон передает возбуждение, называется аксоном, причем аксон у
каждого нейрона один. Дендриты и аксон имеют довольно сложную ветвистую
структуру. Место соединения аксона нейрона - источника возбуждения с
дендритом называется синапсом. Основная функция нейрона заключается в
передаче возбуждения с дендритов на аксон. Но сигналы, поступающие с
различных дендритов, могут оказывать различное влияние на сигнал в аксоне.
Нейрон выдаст сигнал, если суммарное возбуждение превысит некоторое
пороговое значение, которое в общем случае изменяется в некоторых
пределах. В противном случае на аксон сигнал выдан не будет: нейрон не
ответит на возбуждение. У этой основной схемы много усложнений и
исключений, тем не менее, большинство искусственных нейронных сетей
моделируют лишь эти простые свойства.
Искусственный нейрон
Искусственный нейрон
имитирует в первом приближении свойства биологического нейрона. На вход
искусственного нейрона поступает некоторое множество сигналов, каждый из
которых является выходом другого нейрона. Каждый вход умножается на
соответствующий вес, аналогичный синаптической силе, и все произведения
суммируются, определяя уровень активации нейрона. На рис. 1.2 представлена
модель, реализующая эту идею. Хотя сетевые парадигмы весьма разнообразны,
в основе почти всех их лежит эта конфигурация. Здесь множество входных
сигналов, обозначенных x1, x2,:, xn, поступает на искусственный нейрон.
Эти входные сигналы, в совокупности, обозначаемые вектором X,
соответствуют сигналам, приходящим в синапсы биологического нейрона.
Каждый сигнал умножается на соответствующий вес w1, w2,..., wn, и
поступает на суммирующий блок, обозначенный ?. Каждый вес соответствует
"силе" одной биологической синаптической связи. (Множество весов в
совокупности обозначается вектором W.) Суммирующий блок,
соответствующий телу биологического элемента, складывает взвешенные входы
алгебраически, создавая выход, который мы будем называть NET.
В векторных обозначениях это может быть компактно записано следующим
образом:
NET = XW.
Активационные функции
Сигнал NET далее, как правило, преобразуется активационной
функцией F и дает выходной нейронный сигнал OUT.
Активационная функция может быть обычной линейной функцией
OUT = K(NET),
где К - постоянная, пороговой функции
OUT = 1, если NET
> T, OUT = 0 в остальных случаях,
где Т - некоторая постоянная пороговая величина, или же является
функцией, более точно моделирующей нелинейную передаточную характеристику
биологического нейрона и представляющей нейронной сети большие
возможности.
Если функция F сужает диапазон изменения величины NET так,
что при любых значениях NET значения OUT
принадлежат некоторому конечному интервалу, то F называется "сжимающей"
функцией. В качестве "сжимающей" функции часто используется логистическая
или "сигмоидальная" (S-образная) функция. Эта функция математически
выражается как F(x) = 1/(1 + е-x). Таким
образом,
OUT=1/(1+e-NET)
По аналогии с электронными системами активационную функцию можно
считать нелинейной усилительной характеристикой искусственного нейрона.
Коэффициент усиления вычисляется как отношение приращения величины
OUT к вызвавшему его небольшому приращению величины
NET. Он выражается наклоном кривой при определенном уровне
возбуждения и изменяется от малых значений при больших отрицательных
возбуждениях (кривая почти горизонтальна) до максимального значения при
нулевом возбуждении и снова уменьшается, когда возбуждение становится
большим положительным. Гроссберг (1973) обнаружил, что подобная нелинейная
характеристика решает поставленную им дилемму шумового насыщения. Каким
образом одна и та же сеть может обрабатывать как слабые, так и сильные
сигналы? Слабые сигналы нуждаются в большом сетевом усилении, чтобы дать
пригодный к использованию выходной сигнал. Однако усилительные каскады с
большими коэффициентами усиления могут привести к насыщению выхода шумами
усилителей (случайными флуктуациями), которые присутствуют в любой
физически реализованной сети. Сильные входные сигналы в свою очередь также
будут приводить к насыщению усилительных каскадов, исключая возможность
полезного использования выхода. Центральная область логистической функции,
имеющая большой коэффициент усиления, решает проблему обработки слабых
сигналов, в то время как области с падающим усилением на положительном и
отрицательном концах подходят для больших возбуждений. Таким образом,
нейрон функционирует с большим усилением в широком диапазоне уровня
входного сигнала.
Рассмотренная простая модель искусственного нейрона игнорирует многие
свойства своего биологического двойника. Например, она не принимает во
внимание задержки во времени, которые воздействуют на динамику системы.
Входные сигналы сразу же порождают выходной сигнал. И, что более важно,
она не учитывает воздействий функции частотной модуляции или
синхронизирующей функции биологического нейрона, которые ряд
исследователей считают решающими. Несмотря на эти ограничения, сети,
построенные из этих нейронов, обнаруживают свойства, сильно напоминающие
биологическую систему. Только время и исследования смогут ответить на
вопрос, являются ли подобные совпадения случайными или следствием того,
что в модели верно схвачены важнейшие черты биологического нейрона.
Однослойные искусственные нейронные сети
Хотя один нейрон и способен
выполнять простейшие процедуры распознавания, сила нейронных вычислений
проистекает от соединений нейронов в сетях. Простейшая сеть состоит из
группы нейронов, образующих слой, как показано в правой части рис. 1.3.
Отметим, что вершины-круги слева служат лишь для распределения входных
сигналов. Они не выполняют каких- либо вычислений, и поэтому не будут
считаться слоем. По этой причине они обозначены кругами, чтобы отличать их
от вычисляющих нейронов, обозначенных квадратами. Каждый элемент из
множества входов Х отдельным весом соединен с каждым
искусственным нейроном. А каждый нейрон выдает взвешенную сумму входов в
сеть. В искусственных и биологических сетях многие соединения могут
отсутствовать, все соединения показаны в целях общности. Могут иметь место
также соединения между выходами и входами элементов в слое. Удобно считать
веса элементами матрицы W. Матрица имеет m строк и n
столбцов, где m - число входов, а n - число нейронов. Например, w2,3 - это вес, связывающий третий вход со вторым
нейроном. Таким образом, вычисление выходного вектора N,
компонентами которого являются выходы OUT нейронов, сводится
к матричному умножению N = XW, где
N и Х - векторы-строки.
Многослойные искусственные нейронные сети
Более крупные и сложные
нейронные сети обладают, как правило, и большими вычислительными
возможностями. Хотя созданы сети всех конфигураций, какие только можно
себе представить, послойная организация нейронов копирует слоистые
структуры определенных отделов мозга. Оказалось, что такие многослойные
сети обладают большими возможностями, чем однослойные, и в последние годы
были разработаны алгоритмы для их обучения. Многослойные сети могут
образовываться каскадами слоев. Выход одного слоя является входом для
последующего слоя. Подобная сеть показана на рис. 1.4 и снова изображена
со всеми соединениями.
Нелинейная активационная функция
Многослойные сети не могут привести к увеличению вычислительной
мощности по сравнению с однослойной сетью лишь в том случае, если
активационная функция между слоями не будет линейной. Вычисление выхода
слоя заключается в умножении входного вектора на первую весовую матрицу с
последующим умножением (если отсутствует нелинейная активационная функция)
результирующего вектора на вторую весовую матрицу.
(XW1)W2
Так как умножение матриц ассоциативно, то
X(W1W2).
Это показывает, что двухслойная линейная сеть эквивалентна одному слою
с весовой матрицей, равной произведению двух весовых матриц.
Следовательно, любая многослойная линейная сеть может быть заменена
эквивалентной однослойной сетью. Однослойные сети весьма ограниченны по
своим вычислительным возможностям. Таким образом, для расширения
возможностей сетей по сравнению с однослойной сетью необходима нелинейная
активационная функция.
Обучение искусственных нейронных сетей
Среди всех интересных свойств искусственных нейронных сетей ни одно не
захватывает так воображения, как их способность к обучению. Их обучение до
такой степени напоминает процесс интеллектуального развития человеческой
личности, что может показаться, что достигнуто глубокое понимание этого
процесса. Но, проявляя осторожность, следует сдерживать эйфорию.
Возможности обучения искусственных нейронных сетей ограниченны, и нужно
решить много сложных задач, чтобы определить, на правильном ли пути мы
находимся.
Цель обучения
Сеть обучается, чтобы для некоторого множества входов давать желаемое
(или, по крайней мере, сообразное с ним) множество выходов. Каждое такое
входное (или выходное) множество рассматривается как вектор. Обучение
осуществляется путем последовательного предъявления входных векторов с
одновременной подстройкой весов в соответствии с определенной процедурой.
В процессе обучения веса сети постепенно становятся такими, чтобы каждый
входной вектор вырабатывал выходной вектор.
Обучение с учителем
Различают алгоритмы обучения с учителем и без учителя. Обучение с
учителем предполагает, что для каждого входного вектора существует целевой
вектор, представляющий собой требуемый выход. Вместе они называются
обучающей парой. Обычно сеть обучается на некотором числе таких обучающих
пар. Предъявляется выходной вектор, вычисляется выход сети и сравнивается
с соответствующим целевым вектором, разность (ошибка) с помощью обратной
связи подается в сеть, и веса изменяются в соответствии с алгоритмом,
стремящимся минимизировать ошибку. Векторы обучающего множества
предъявляются последовательно, вычисляются ошибки и веса подстраиваются
для каждого вектора до тех пор, пока ошибка по всему обучающему массиву не
достигнет приемлемо низкого уровня.
Обучение без учителя
Несмотря на многочисленные прикладные достижения, обучение с учителем
критиковалось за свою биологическую неправдоподобность. Трудно вообразить
обучающий механизм в мозге, который бы сравнивал желаемые и действительные
значения выходов, выполняя коррекцию с помощью обратной связи. Если
допустить подобный механизм в мозге, то откуда тогда возникают желаемые
выходы? Обучение без учителя является намного более правдоподобной моделью
обучения в биологической системе. Развитая Кохоненом и многими другими,
она не нуждается в целевом векторе для выходов и, следовательно, не
требует сравнения с предопределенными идеальными ответами. Обучающее
множество состоит лишь из входных векторов. Обучающий алгоритм
подстраивает веса сети так, чтобы получались согласованные выходные
векторы, т. е. чтобы предъявление достаточно близких входных векторов
давало одинаковые выходы. Процесс обучения, следовательно, выделяет
статистические свойства обучающего множества и группирует сходные векторы
в классы. Предъявление на вход вектора из данного класса даст определенный
выходной вектор, но до обучения невозможно предсказать, какой выход будет
производиться данным классом входных векторов. Следовательно, выходы
подобной сети должны трансформироваться в некоторую понятную форму,
обусловленную процессом обучения. Это не является серьезной проблемой.
Обычно не сложно идентифицировать связь между входом и выходом,
установленную сетью.
|