Funktionsweise und Aufbau neuronaler Netze
der subsymbolische Ansatz als Zweig der künstlichen Intelligenz

Künstliche Intelligenz wurde 1966 von M. L. Minsky wie folgt definiert :

„Artifical Intelligence is the science of making machines do things that would require intelligence if done by man."

Im Bereich der künstlichen Intelligenz haben sich in den letzten Jahren zwei grundsätzlich unterschiedliche Forschungslager entwickelt.

Zum einem sind dies die Anhänger von Expertensystemen, deren Ziel es ist, wissensbasierte Systeme für Aufgaben zu entwickeln, welche bisher nur von menschlichen Experten gelöst werden konnten. Im Rahmen der Entwicklung von Expertensystemen werden Experten nach Regeln und Schlüssen gefragt, mit deren Hilfe sie Entscheidungen treffen. Grundlage dieser Forschungsrichtung ist das symbolische Paradigma, nach dem Intelligenz auf Regeln und Fakten basiert, welche von Menschen kognitiv verarbeiten werden. Kritischer Erfolgsfaktor dieses Ansatzes ist demnach das Vorhandensein von regelhaften Ursachen-Wirkungszusammenhängen in Form von Problemlösungsheuristiken oder explorativem Wissen.

Der konnektionistische Ansatz basiert auf dem subsymbolischen Paradigma, nach dem der Ursprung von Intelligenz nicht in Regeln und Fakten, sondern in der biologischen Informationsverarbeitung liegt. Die Anhänger dieser Forschungsrichtung gehen somit einen Schritt weiter und untersuchen, wie Regeln aus physiologischer Sicht in Lebewesen entstehen, gespeichert und abgerufen werden können. Grundlage dieses Paradigmas sind die Erkenntnisse von Medizinern, Biologen, Physikern und Psychologen über den Aufbau und die Funktionsweise des menschlichen Gehirns. Intelligenz wird im Rahmen dieses Ansatzes mit Hilfe von künstlichen neuronalen Netzen simuliert, welche die biologische Informationsverarbeitung nachahmen. Die Intelligenz neuronaler Netze entsteht nicht durch Eingabe oder Verarbeitung von Regeln zur Lösung einer Aufgabenstellung, sondern durch Präsentation von Beispielen mit dessen Hilfe sich das neuronale Netz an die Lösung des Problems anpaßt. Voraussetzung für den Einsatz neuronaler Netze ist demnach das Vorhandensein von Beispielen, die den gesuchten Ursachen-Wirkungszusammenhang der Aufgabe abbilden. Neuronale Netze eignen sich somit insbesondere für Problemstellungen, für deren Lösung keine Regeln existieren, mit anderen Worten bei scheinbar chaotischen Zusammenhängen zwischen Ursache und Wirkung.

 

 

 

Seit der Jahrhundertwende ist bekannt, daß das zentrale Nervensystem intelligenter Lebewesen aus mehreren Millionen einfacher Einheiten, den sogenannten Neuronen, besteht.

Nervenzellen bestehen aus einem Zellkörper genannt Soma, einem Zellkern sowie einer Art Verlängerungsarm, dem Axon. Der Zellkörper wird von Dendriten umgeben, deren Aufgabe es ist, Informationen in Form von elektrochemischer Energie von anderen Neuronen über dem sogenannten synaptischen Spalt hinweg aufzunehmen und in das Soma weiterzuleiten. Bezüglich der Übertragung wird zwischen inhibitorischen und exhibitorischen Nervenzellen unterschieden, die entweder die elektrische Spannung einer anderen Nervenzelle erhöhen oder erniedrigen. Die im Soma eines Neurons vorliegende elektrische Spannung, die als Aktionspotential bezeichnet wird, ist somit von den Aktivitäten der mit ihr verbundenen Zellen abhängig. Sollte die elektrische Spannung innerhalb des Zellkörpers einen gewissen Schwellenwert überschreiten, kommt es zu einer elektrischen Entladung, indem die Spannung über das Axon und den synaptischen Spalt an andere Nervenzellen weitergeben wird.

Nervenzellen können je nach deren Funktion in Rezeptor-, Assoziations- und Effektorzellen unterteilt werden. Aufgabe der Rezeptorzellen ist es, Impulse aus der Umwelt des Organismus wahrzunehmen; hierzu zählen bei den Menschen beispielsweise die Seh- und Geschmacksnerven. Assoziationszellen dienen der kognitiven Verarbeitung der vorliegenden Information. Die Resultate dieser Verarbeitung führen mit Hilfe der Effektorzellen zu einer Reaktion, indem beispielsweise ein Muskel bewegt wird.

Intelligenz ist von der richtigen Verarbeitung eingehender Information durch Millionen einfacher Nervenzellen abhängig. Die Schwierigkeit des konnektionistischen Ansatzes liegt somit nicht in der Simulation der einfachen Einheiten, sondern vielmehr in der Komplexität der Verbindungen zwischen diesen Zellen. So empfängt eine Nervenzelle Impulse von über 10.000 anderen Nervenzellen und gibt das Resultat in Form des Aktivationspotentials an etwa 1.000 andere Neuronen ab.

Während Lernen im Sinne der Anhänger von Expertensystemen von dem Hinzufügen bzw. der Modifikation von Regeln abhängt, lernt ein Mensch aus physiologischer Sicht durch die Veränderung der Nervenzellen und insbesondere ihrer Verbindungen. In der Biologie wird die Verbindungsmodifikation zwischen Neuronen als Bahnung bezeichnet. Lernen erfolgt somit durch strukturelle Veränderung von Synapsen, die dafür sorgen, daß ein Reiz von einem bestimmten Neuron an ein anderes verstärkt weitergegeben wird.

 

 

 

Seit McCulloch und Pits 1943 die ersten Modelle künstlicher neuronaler Netze entwickelten, ist deren Anzahl stetig gestiegen. Aus diesem Grunde wird an dieser Stelle, in Anlehnung an das 1986 von Rumelhart, Hinton und McClelland und veröffentlichte Standardwerk „Parallel Distributed Processing" (PDP) ein allgemeingültiges Modell eingeführt, welches im folgenden Kapitel an das in dieser Diplomarbeit verwendete Netzwerkmodell adaptiert wird.

parakllel distributed processing system

Abbildung 7 : The basic components of a parallel distributed processing system Quelle: Rumelhardt / Hinton / McClelland (1986), S.47

Das allgemeingültige Rahmenmodell künstlicher neuronaler Netze besteht aus den folgenden Komponenten :
Eine Menge U von Verarbeitungseinheiten . Eine Verarbeitungseinheit wird als Unit bezeichnet und repräsentiert ein oben beschriebenes Neuron. Die Aufgabe einer Unit besteht, in Analogie zum natürlichen Vorbild, in der Aufnahme und Verarbeitung von anliegenden Signalen sowie deren modifizierter Weitergabe.

Eine Zustandsvariable a . Der Zustand einer Unit ui zum Zeitpunkt t wird durch die Variable ai(t) ausgedrückt. Sie modelliert das Aktionspotential, das heißt die elektrische Spannung innerhalb einer Nervenzelle zu einem bestimmten Zeitpunkt.

Eine Outputfunktion f . Units interagieren, indem sie Signale an die mit ihnen verbundenen Units weitergeben. In Analogie zu den biologischen Neuronen hängt die Signalstärke vom Zustand ai(t) der Unit ab. Jede Unit besitzt demnach eine Outputfunktion, fi(ai(t), welche den aktuellen Zustand einer Zelle auf das Outputsignal oi(t) abbildet.

Eine Verbindungsmenge W. Wie oben beschrieben, sind Units zum Teil untereinander verbunden. Die Interaktion der Verarbeitungsmenge Uwird durch die Verbindungsmenge Wbeschrieben. Eine Verbindung von einer Unit uj zu einer Unit ui wird durch die Existenz eines korrespondierendem Gewichts ausgedrückt. Handelt es sich um eine exhibitorische Verbindung, so ist wij positiv, eine inhibitorische Verbindung wird durch ein negatives Gewicht wij dargestellt. Die Stärke der Verbindung, das heißt das Ausmaß in dem die Aktivität ai der Unit ui von der Aktivität aj der Unit uj abhängt, ergibt sich durch den Absolutwert |wij|. Aus didaktischen Gründen wird an dieser Stelle für jede Unit ui eine Verbindungsmenge eingeführt, in der alle Verbindungen vereinigt seien . Es gilt somit und Wi=W,i=1..N.

Eine Propagierungsregel. Mit Hilfe der Propagierungsregel werden die Outputs der Units oi(t) und die Verbindungen der Gewichtsmenge Wi mit dem Input einer Unit ui in Verbindung gesetzt. Diesen Zweck erfüllt die Nettoinputfunktion neti

die alle in eine Unit ui eingehenden gewichteten Signale additiv zusammenfaßt.

Eine Aktivierungsregel. Die Aktivierungsregel stellt die Abhängigkeit zwischen dem eingehenden Nettoinput neti(t) und dem Aktivationszustand ai(t) zum Zeitpunkt t dar. Folglich existiert für jede Unit ui eine Aktivierungsfunktion Fi mit

die den Aktivationszustand einer Unit ui, analog des Aktionspotentials eines Neurons, von den eintreffenden Signalen anderer Units funktional abbildet.

 

 

 

Im folgenden wird die Spezifikation des vorgestellten Rahmenmodells in Hinblick auf das in dieser Arbeit verwendete dreilagige Multilayer-Feedforward-Netz vorgenommen.

Bei Multilayer-Netzwerken wird zwischen Input-, Output- und Hidden-Units unterschieden. Input-Units sind solche Verarbeitungseinheiten, die ihre Eingangssignale ausschließlich von der Systemumwelt empfangen, vergleichbar mit den Rezeptorzellen des Menschen. Output-Units empfangen Signale vom System, geben diese jedoch an die Systemumwelt ab und können somit mit den Effektorzellen verglichen werden. Hidden-Units sind Einheiten, die Signale nur innerhalb des Systems empfangen und weitergeben. Die Input-, Hidden- und Output-Units werden in sogenannte Layers, zu deutsch Schichten, vereinigt.

Multilayer Feedforward Netzwerk

Abbildung 8 : Aufbau eines Multilayer-Feedforward-Netzwerkes mit einem Hidden-Layer und einer Ausgabe-Unit

Bei Feedforward Netzen wird die Gewichtsmenge W derart gewählt, daß die Ausgangssignale o der Units einer Schicht nur an Units der folgenden Schicht weitergegeben werden können. Es gilt demnach , falls uj nicht in einer der Unit ui vorgelagerten Schicht liegt.

Bei der Outputfunktion fi einer Unit ui handelt es sich um die identische Abbildung des Aktivationszustandes ai(t). Es gilt

Die Aktivierungsfunktion ist durch die stetig differenzierbare Logistik-Funktion gegeben. Der Aktivationszustand einer Unit ui wird folglich durch:

berechnet und liegt demnach im offenen Intervall ]0,1[.

Stetig differenzierbare Logistik-Funktion

Abbildung 9 : Stetig differenzierbare Logistik-Funktion

Wie zuvor beschrieben, liegt der Ursprung menschlicher Intelligenz in der richtigen Verbindung der Neuronen, welche im Modell durch Units repräsentiert werden. In Analogie dazu liegt die Intelligenz künstlicher neuronaler Netze in der richtigen Wahl der Gewichtsmenge W und damit verbunden in der sinnvollen Interaktion der einfachen Verarbeitungseinheiten. Ein Lernverfahren, mit dessen Hilfe annähernd optimale Gewichte für Multilayer-Feedforward-Netzwerke gefunden werden können, wird im folgenden Abschnitt vorgestellt.

 

 

 

Der von Rumelhart, Hinton und Williams 1986 veröffentlichte Backpropagation-Lernalgorithmus ist wohl die am häufigsten verwendete Methode zur Bestimmung der optimalen Gewichte von Multilayer-Feedforward-Netzwerken.

Der Approximationsfehler Ep eines neuronalen Netzes bezogen auf eine Beobachtung Ep wird als die Summe des quadratischen Abstandes zwischen dem Ausgangssignal der Output-Schicht ojp und des korrespondierenden Zielwertes tjp dargestellt :

Der Gesamtfehler über alle Beobachtungen P ergibt sich folglich durch:

und kann als Güte der Approximation gesehen werden.

Die grundlegende Idee der Backpropagation-Methode ist es, die Gewichte für jede Beobachtung derart anzupassen, daß dadurch Ep sukzessive verringert wird und damit auch der Gesamtfehler E. Dies geschieht durch ein Gradientenabstiegsverfahren, in dem für jede Beobachtung p die Gewichte wij in jene Richtung verändert werden, in der sie zu einer Minimierung der Fehlerfunktion Ep beitragen. Für die Gewichtsanpassung bezogen auf eine Beobachtung soll demnach gelten :

Sei nun oip der Output einer Unit ui und netjp die zuvor definierte Nettoinputfunktion, so ergibt sich durch die einmalige Differenzierung von Ep nach wij :

Der Faktor repräsentiert die Stärke, mit der jede Beobachtung zu einer Gewichtsveränderung beiträgt und wird als Lernrate bezeichnet.

Nach der allgemeinen Einführung erfolgt nun die Spezifikation der allgemeinen Delta-Regel für die Hidden- und Output-Units und der in Kapitel 3.4 zugrunde gelegten Sigmoiden Aktivierungsfunktion F.

Durch Substitution erhält man für die Units der Output-Schicht folgende Lernregel : (1)

Die Lernregel für die Hidden-Units ergibt sich durch weiteres Anwenden der Kettenregel : (2)

Nach einer zufälligen Initialisierung der Gewichtsmenge W läßt sich der Backpropagation-Lernalgorithmus in vier Schritten beschreiben :

  1. Feedforwardberechnung der Ausgabewerte oip gemäß der Spezifikation in Kapitel 3.4
  2. Backpropagation bis zur Output-Schicht durch Bestimmung der für alle Units der Output-Schicht nach Lernregel (1)
  3. Backpropagation bis zu Hidden-Schicht durch Bestimmung der für alle Units der Hidden-Schicht nach Lernregel (2) unter Verwendung der in Schritt 2 berechneten partiellen Ableitungen.
  4. Anpassung der Gewichte. Mit Hilfe der in Schritt zwei und drei berechneten werden die neuen Gewichte bestimmt.


Die Schritte 1 bis 4 werden für alle Beobachtungen so lange durchgeführt, bis entweder eine bestimmte Iterationslänge erreicht ist, oder die Gesamtfehlerfunktion E> einen gewissen Schwellenwert unterschritten hat. Eine Iteration bezeichnet dabei die vollständige Präsentation aller Musterpaare der Trainingsmenge.

 

 

 

Bei dem Backpropagation-Gradientenabstiegsverfahren werden Gewichte nur in die Richtung verändert, in der sie zu einer direkten Verringerung der Fehlerfunktion beitragen. Dies hat zur Folge, daß das Verfahren unter Umständen in einem lokalen Minimum konvergiert und die gelieferten Gewichte demnach nicht dem globalen Minimum der Fehlerfunktion E entsprechen.

Die zu optimierenden Gewichte werden anfangs mit Zufallswerten initialisiert. Diese Gewichte bilden den Startpunkt des Verfahrens auf der Fehlerfunktion und beeinflussen den Trainingsverlauf des Backpropagation-Algorithmus. Bei dessen unglücklicher Wahl kann das Verfahren in einem globalen Minimum konvergieren und dementsprechend nur suboptimale Gewichte liefern. Aufgrund dieser Tatsache sollte der Backpropagation-Algorithmus mehrmals mit unterschiedlichen Anfangsgewichten wiederholt werden. Bei einem ähnlichen Verlauf der Fehlerfunktion kann schließlich auf ein globales Minimum geschlossen werden. Die Wahrscheinlichkeit des Auffindens optimaler Gewichte korreliert folglich mit der durchgeführten Anzahl von Wiederholungen dieses Verfahrens.

 

 

 

Erfolgsrelevante Faktoren von Multilayer-Feedforward-Netzwerken

Neuronale Netze dienen insbesondere der Approximation eines unbekannten Ursachen-Wirkungszusammenhangs. Zu diesem Zweck wird eine Datenmenge, die den unbekannten Ursachen-Wirkungszusammenhang beschreibt, in eine Trainingsmenge und eine Testmenge eingeteilt. Nachdem ein neuronales Netz mit dem in Kapitel 3.4 vorgestellten Verfahren trainiert wurde, wird seine Übertragungsleistung anhand der Testmenge evaluiert.

Vorgehensweise

Abbildung 10 : Vorgehensweise beim Trainieren und Validieren neuronaler Netze

Die Fähigkeit, das aus einer Trainingsmenge erlernte Wissen auf die Allgemeinheit - in diesem Falle die Testmenge - zu übertragen, wird als Generalisierung bezeichnet.

Zwischen der Anzahl der Hidden-Units, der Iterationslänge und der Generalisierungsfähigkeit existieren folgende Zusammenhänge.

Wird die Anzahl der Hidden-Units zu groß gewählt, so ergibt sich zwar ein geringer Trainingsfehler, jedoch ist das Netz nicht in der Lage zu generalisieren. Wird eine zu kleine Anzahl von Hidden-Units gewählt, so ist das Netz nicht in der Lage, den unbekannten Ursachen-Wirkungszusammenhang zu lernen. Eine Generalisierung bleibt demnach ebenfalls aus.

Mit der Anzahl von Lernschritten verhält es sich analog. Läßt man ein Netz zu lange iterieren, d.h. wird eine zu große Anzahl von Lernschritten gewählt, so werden Besonderheiten der Trainingsmenge gelernt und die Generalisierungsfähigkeit ist dementsprechend gering. Wird jedoch eine zu geringe Anzahl von Iterationen gewählt, so wird der entsprechende Ursachen-Wirkungszusammenhang nicht gelernt.

Im Unterschied zu ökonometrischen Verfahren existieren bei der Spezifikation von neuronalen Netzen bezüglich der Anzahl von Hidden-Units und der optimalen Anzahl von Trainingsschritten noch keine allgemeingültigen Aussagen. Aus diesem Grund wird bei der Netzwerkspezifikation und bei dem Training der neuronalen Netze eine Vielzahl von Kombinationsmöglichkeiten zur Bestimmung der optimalen Gewichtsmenge getestet. Es wurden jedoch Verfahren entwickelt, die das Trainieren neuronaler Netze beschleunigen, so daß bei gleicher Rechenleistung eine Mehrzahl unterschiedlicher Spezifikationen auf ihre Generalisierungsfähigkeit hin getestet werden können. Zwei der im Rahmen dieser Diplomarbeit verwendeten Methoden werden im nächsten Abschnitt vorgestellt.

 

 

 

Das Momentum wurde erstmals von 1986 Rumelhart, Hinton und Williams eingeführt. Es handelt sich dabei um einen festen Term , der bei einem Lernschritt die Richtung und das Ausmaß der bisherigen Gewichtsveränderungen berücksichtigt. Für die Gewichtsänderung gilt demnach :

wobei n die Iterationsstufe des Lernprozesses darstellt.

Das Momentum beschleunigt den Lernprozeß durch Vermeidung von Oszillationen. Dies wird erreicht, indem Ausreißer im Sinne von untypischen Beobachtungen weniger berücksichtigt werden.

Eine weitere Möglichkeit, die Konvergenz der Gewichte beim Trainieren eines neuronalen Netzes zu beschleunigen, liegt in der Verwendung von dynamischen Lernraten. Dabei wird die in Kapitel 3.4 vorgestellte Lernrate nach jedem Iterationsschritt um einen gewissen Prozentsatz vermindert:

Die Beschleunigung mit Hilfe dynamischer Lernraten erfolgt ebenfalls durch Vermeidung von Oszillationen bei zunehmender Iterationslänge.

© 2000 Parsis Dastani