Neurony z biasem i bez biasu

::Wstep teoretyczny::

Podstawowym elementem składowym sieci neuronowej jest neuron. Głównš cechš pojedynczego neuronu jest to, że posiada on wiele wejć i tylko jedno wyjcie. Z matematycznego punktu widzenia neuron przedstawia się jako element realizujšcy funkcję danš wzorem:

gdzie f() jest funkcjš aktywacji, w_i wagi dla poszczególnych wejć, x_i wartoci wejciowe neuronu. Neuron sumuje składowe wektora wejciowego przemnożone przez odpowiednie wagi, a następnie wynik sumowania poddaje działaniu funkcji aktywacji i w ten sposób generowane jest wyjcie neuronu. Wektory wejciowe jak i wagi neuronu w rzeczywistych zastosowaniach podlegajš często operacji normowania. W interpretacji geometrycznej odpowiada to przeniesieniu punktów wektora wejciowego na powierzchnię N wymiarowej sfery o promieniu jednostkowym, gdzie N jest rozmiarem wektora wejciowego. W najprostszym przypadku, dla wektora dwuwymiarowego, operacji normowania odpowiada przeniesienie wszystkich punktów wejciowych na okršg o promieniu równym 1. Operacje normowania każdej współrzędnej można zapisać matematycznie za pomocš wzoru:

gdzie x_i współrzędna normowana, x_j kolejne współrzędne wektora wejciowego. Stosowanie operacji normowania zarówno do wektorów wejciowych, jak i wag dla poszczególnych wejć neuronów w znacznym stopniu poprawia właciwoci uczonenia neuronu. Rolę funkcji aktywacji może pełnić funkcja liniowa bšd nieliniowa. W przypadku liniowego neuronu jego zapis matematyczny przedstawia się następujšco:

Jest to jeden z najprostszych modeli neuronu rzadko stosowany w praktyce. Wynika to z tego, że zjawiska w otaczajšcym wiecie majš charakter nieliniowy. Można by tu wzišć za przykład biologiczne neurony. Neuron może być wyposażony w tak zwany bias, czyli dodatkowe wejcie, na którym występuje stała wartoć. Waga dla tego wejcia jest modyfikowana w trakcie procesu uczenia tak jak wszystkie pozostałe wagi. Najczęciej przyjmuje się, że na wejciu bias występuje sygnał stale równy jeden, wtedy wzór matematyczny takiego neuronu przedstawia się w sposób następujšcy:

gdzie f() jest funkcjš aktywacji, w_i wagi dla poszczególnych wejć, x_i wartoci wejciowe neuronu natomiast w₀ wartoć wagi dla wejcia bias. Jeżeli przyjmiemy wartoć na wejciu bias równš 0 to otrzymujemy wzór matematyczny dla zwykłego neuronu. Teraz zajmiemy się tym do czego owy bias służy.

::Przypadek jednowymiarowy::

Najprociej działanie biasu można wyjanić na podstawie interpretacji geometrycznej dla neuronu o pojedynczym wejciu, dla dwóch wybranych funkcji aktywacji. Tę interpretację dla funkcji signum i sigmoidalnej przedstawiono na rysunku poniżej.

rys 1a. Funkcje aktywacji neuronu bez biasu. Funkcja signum i funkcja sigmoidalna.

rys 1b. Funkcje aktywacji neuronu z biasem. Funkcja signum i funkcja sigmoidalna.

Z wykresów wynika, że w przypadku neuronu jednowejciowego zastosowanie biasu umożliwia przesuwanie progu aktywacji wzdłuż osi x. Gdy bias jest ujemny przesuwamy próg aktywacji w prawo, gdy dodatni to w lewo. Stšd prosty wniosek, że neuron z biasem powinien uczyć się nawet takich wektorów których zwykły neuron nie byłby w stanie się nauczyć. Dochodzimy do wniosku, że dodanie dodatkowej wagi kosztem zwiększenia iloci koniecznych obliczeń powoduje poprawę własnoci neuronu. Operacja normowania neuronu jednowejciowego nie ma sensu, gdyż każdy podstawiony punkt po unormowaniu może otrzymać trzy wartoci 1, 0 lub 1.

Przyjrzyjmy się więc operacji normowania dla jednowymiarowego neuronu z biasem. Wykonywanie tej operacji na wektorach wejciowych (przyjmujemy bias jako wejcie o wartoci 1) i wagach neuronu powoduje przeniesienie wszystkich punktów na okršg o promieniu równym 1. Wynik takiej operacji przedstawiono obok. Operacja normalizacji powoduje, w zależnoci od znaku biasu, przeniesienie wszystkich punktów na odpowiedniš częć okręgu. W przypadku dodatniego biasu na górnš częć okręgu, natomiast w przypadku ujemnego biasu na dolnš. Zwiększenie wymiaru powoduje to, że w łatwy sposób można przeprowadzić linię rozgraniczajšcš od siebie punkty o różnych odpowiedziach neuronu. Ta linia prosta przechodzić będzie przez rodek układu współrzędnych, jej nachylenie zależeć będzie od w₀ (waga dla biasu). Czyli bias powoduje przeniesienie rozwišzania w dodatkowy wymiar, przez co rozwišzanie danego problemu staje się w ogóle możliwe.

::Przypadek dwuwymiarowy::

Przyjrzyjmy się teraz neuronowi dwuwejciowemu. W interpretacji geometrycznej wektory wejciowe należš do całej płaszczyzny OXY, natomiast wyjcie neuronu stanowi trzeci wymiar. Czyli funkcja aktywacji jest pewnš powierzchniš w przestrzeni trójwymiarowej, przykład funkcji sigmoidalnej przedstawiono obok.

Operacja normowania wektorów wejciowych sprawia, że wszystkie punkty przenoszone sš na obwód okręgu o promieniu 1, wyjštkiem jest oczywicie punkt (0,0) który operacja normowania przekształca w ten sam punkt. Teraz należy zastanowić się jak bias wpływa na działanie neuronu dwuwejciowego. Przyjrzyjmy się najpierw samej funkcji aktywacji. Jak już wiemy z poprzedniego punktu wejcie biasu jest odpowiedzialne za przesuwanie funkcji aktywacji wzdłuż linii prostej. W przypadku dwuwymiarowym bias przesuwa funkcję aktywacji w kierunku prostopadłym do prostej o równaniu:

rys 3. Funkcja aktywacji dla neuronu dwu wejciowego.

Przykłady funkcji aktywacji przesuniętej i nie przesuniętej w wyniku działania biasu przedstawiono obok. Rozważajšc neuron z biasem wprowadzenie dodatkowej wagi powoduje przeniesienie wektorów wejciowych z przestrzeni dwu do trójwymiarowej. Wszystkie punkty leżš wtedy na powierzchni sfery, z tym, że dla dodatniej wartoci biasu jest to górna, a dla ujemnej dolna półsfera. Wynika to w prosty sposób z metody obliczania normy dla wektorów wejciowych, mianowicie trzecia współrzędna jest przez cały czas stała, co powoduje rozgraniczenie punktów dla dodatniej i ujemnej wartoci biasu. Punkt (0,0) przenosi się w tym przypadku na punkt (0,0,1) czyli na najwyżej położny punkt sfery lub też na punkt (0,0,-1) czyli punkt położony najniżej.

rys 4. Obrazy funkcji aktywacji dla neuronu z biasem i bez biasu.

Zastosowanie biasu jest czasami konieczne do uzyskania jakiegokolwiek rozwišzania. Przykład rozwišzania tego samego problemu z wykorzystaniem neuronu z i bez biasu przedstawiono poniżej.

rys 5a. Rozwišzanie dla neuronu bez biasu jest niemożliwe.

rys 5b. Rozwišzanie dla neuronu z biasem jak widać istnieje.

Z rysunków wynika rzecz następujšca, w przypadku neuronu bez biasu punkty zostały dobrane tak, aby nie dało się przeprowadzić prostej, przechodzšcej przez rodek układu współrzędnych rozdzielajšcej punkty o różnych wartociach odpowiedzi neuronu. Odpowiedzi neuronu dla danego punktu zaznaczone sš kółkami w odpowiednich kolorach zależnych od wartoci tej odpowiedzi. Wniosek jest następujšcy neuron bez biasu nie jest w stanie prawidłowo zaklasyfikować punktów, czyli nie jestemy w stanie go tego nauczyć. Natomiast w przypadku neuronu z biasem przeniesienie punktów na powierzchnie sfery umożliwia rozgraniczenie punktów o różnych wartociach na wyjciu neuronu za pomocš płaszczyzny przechodzšcej przez rodek układu. Wynika z tego, że neuron jest w stanie nauczyć się rozróżniać dane punkty.

::Wnioski::

Wprowadzenie do neuronu dodatkowego wejcia bias powoduje wzrost ich możliwoci uczenia się. Jest to zwišzane z umożliwianiem przesuwania progu aktywacji w zależnoci od wagi biasu. Zastosowanie biasu powoduje jednak wzrost iloci obliczeń wynikajšcy z koniecznoci ustalania dodatkowej wagi. Tak dzieje się dla neuronów jedno i dwuwejciowych. W przypadkach neuronów z większš ilociš wejć będzie bardzo podobnie, jednakże przedstawienie geometryczne funkcji aktywacji czy też wyników operacji normowania było by niemożliwe. Wemy za przykład neuron 4 wejciowy. Operacja normowania wektorów wejciowych wišzała by się z przeniesieniem ich na sferę w czterech wymiarach czego nie da się przedstawić za pomocš płaskiego rysunku. Jedynš możliwociš przedstawienia takiego zagadnienia, była by 3D animacja.

Literatura:
Ryszard Tadeusiewcz "Sieci neuronowe", Kraków 1992
Andrzej Kos, Wykład "Sieci neuronowe i sztuczna inteligencja w elektronice", 2004/2005

mgr inż. Adam Gołda
Krzysztof Ziaja, Piotr Miernikowski
Katedra Elektroniki AGH