|
Funktionsweise und Aufbau neuronaler
Netze |
|
|
|
Künstliche Intelligenz wurde 1966 von M. L. Minsky wie folgt definiert : „Artifical Intelligence is the science of making machines do things that would require intelligence if done by man." Im Bereich der künstlichen Intelligenz haben sich in den letzten Jahren zwei grundsätzlich unterschiedliche Forschungslager entwickelt. Zum einem sind dies die Anhänger von Expertensystemen, deren Ziel es ist, wissensbasierte Systeme für Aufgaben zu entwickeln, welche bisher nur von menschlichen Experten gelöst werden konnten. Im Rahmen der Entwicklung von Expertensystemen werden Experten nach Regeln und Schlüssen gefragt, mit deren Hilfe sie Entscheidungen treffen. Grundlage dieser Forschungsrichtung ist das symbolische Paradigma, nach dem Intelligenz auf Regeln und Fakten basiert, welche von Menschen kognitiv verarbeiten werden. Kritischer Erfolgsfaktor dieses Ansatzes ist demnach das Vorhandensein von regelhaften Ursachen-Wirkungszusammenhängen in Form von Problemlösungsheuristiken oder explorativem Wissen. Der konnektionistische Ansatz basiert auf dem subsymbolischen Paradigma, nach dem der Ursprung von Intelligenz nicht in Regeln und Fakten, sondern in der biologischen Informationsverarbeitung liegt. Die Anhänger dieser Forschungsrichtung gehen somit einen Schritt weiter und untersuchen, wie Regeln aus physiologischer Sicht in Lebewesen entstehen, gespeichert und abgerufen werden können. Grundlage dieses Paradigmas sind die Erkenntnisse von Medizinern, Biologen, Physikern und Psychologen über den Aufbau und die Funktionsweise des menschlichen Gehirns. Intelligenz wird im Rahmen dieses Ansatzes mit Hilfe von künstlichen neuronalen Netzen simuliert, welche die biologische Informationsverarbeitung nachahmen. Die Intelligenz neuronaler Netze entsteht nicht durch Eingabe oder Verarbeitung von Regeln zur Lösung einer Aufgabenstellung, sondern durch Präsentation von Beispielen mit dessen Hilfe sich das neuronale Netz an die Lösung des Problems anpaßt. Voraussetzung für den Einsatz neuronaler Netze ist demnach das Vorhandensein von Beispielen, die den gesuchten Ursachen-Wirkungszusammenhang der Aufgabe abbilden. Neuronale Netze eignen sich somit insbesondere für Problemstellungen, für deren Lösung keine Regeln existieren, mit anderen Worten bei scheinbar chaotischen Zusammenhängen zwischen Ursache und Wirkung. |
|
|
|
|
|
Seit der Jahrhundertwende ist bekannt, daß das zentrale Nervensystem intelligenter
Lebewesen aus mehreren Millionen einfacher Einheiten, den sogenannten Neuronen, besteht. Nervenzellen bestehen aus einem Zellkörper genannt Soma, einem Zellkern sowie einer Art Verlängerungsarm, dem Axon. Der Zellkörper wird von Dendriten umgeben, deren Aufgabe es ist, Informationen in Form von elektrochemischer Energie von anderen Neuronen über dem sogenannten synaptischen Spalt hinweg aufzunehmen und in das Soma weiterzuleiten. Bezüglich der Übertragung wird zwischen inhibitorischen und exhibitorischen Nervenzellen unterschieden, die entweder die elektrische Spannung einer anderen Nervenzelle erhöhen oder erniedrigen. Die im Soma eines Neurons vorliegende elektrische Spannung, die als Aktionspotential bezeichnet wird, ist somit von den Aktivitäten der mit ihr verbundenen Zellen abhängig. Sollte die elektrische Spannung innerhalb des Zellkörpers einen gewissen Schwellenwert überschreiten, kommt es zu einer elektrischen Entladung, indem die Spannung über das Axon und den synaptischen Spalt an andere Nervenzellen weitergeben wird. Nervenzellen können je nach deren Funktion in Rezeptor-, Assoziations- und Effektorzellen unterteilt werden. Aufgabe der Rezeptorzellen ist es, Impulse aus der Umwelt des Organismus wahrzunehmen; hierzu zählen bei den Menschen beispielsweise die Seh- und Geschmacksnerven. Assoziationszellen dienen der kognitiven Verarbeitung der vorliegenden Information. Die Resultate dieser Verarbeitung führen mit Hilfe der Effektorzellen zu einer Reaktion, indem beispielsweise ein Muskel bewegt wird. Intelligenz ist von der richtigen Verarbeitung eingehender Information durch Millionen einfacher Nervenzellen abhängig. Die Schwierigkeit des konnektionistischen Ansatzes liegt somit nicht in der Simulation der einfachen Einheiten, sondern vielmehr in der Komplexität der Verbindungen zwischen diesen Zellen. So empfängt eine Nervenzelle Impulse von über 10.000 anderen Nervenzellen und gibt das Resultat in Form des Aktivationspotentials an etwa 1.000 andere Neuronen ab. Während Lernen im Sinne der Anhänger von Expertensystemen von dem Hinzufügen bzw. der Modifikation von Regeln abhängt, lernt ein Mensch aus physiologischer Sicht durch die Veränderung der Nervenzellen und insbesondere ihrer Verbindungen. In der Biologie wird die Verbindungsmodifikation zwischen Neuronen als Bahnung bezeichnet. Lernen erfolgt somit durch strukturelle Veränderung von Synapsen, die dafür sorgen, daß ein Reiz von einem bestimmten Neuron an ein anderes verstärkt weitergegeben wird. |
|
|
|
|
|
Seit McCulloch und Pits 1943 die ersten Modelle künstlicher neuronaler Netze entwickelten, ist deren Anzahl stetig gestiegen. Aus diesem Grunde wird an dieser Stelle, in Anlehnung an das 1986 von Rumelhart, Hinton und McClelland und veröffentlichte Standardwerk „Parallel Distributed Processing" (PDP) ein allgemeingültiges Modell eingeführt, welches im folgenden Kapitel an das in dieser Diplomarbeit verwendete Netzwerkmodell adaptiert wird.
Abbildung 7 : The basic components of a parallel distributed processing system Quelle: Rumelhardt / Hinton / McClelland (1986), S.47 Das allgemeingültige Rahmenmodell künstlicher neuronaler Netze besteht aus den folgenden Komponenten
:
die alle in eine Unit ui eingehenden gewichteten Signale additiv zusammenfaßt.
die den Aktivationszustand einer Unit ui, analog des Aktionspotentials eines Neurons, von den eintreffenden Signalen anderer Units funktional abbildet. |
|
|
|
|
|
Im folgenden wird die Spezifikation des vorgestellten Rahmenmodells in Hinblick auf das
in dieser Arbeit verwendete dreilagige Multilayer-Feedforward-Netz vorgenommen.
Abbildung 8 : Aufbau eines Multilayer-Feedforward-Netzwerkes mit einem Hidden-Layer und einer Ausgabe-Unit Bei Feedforward Netzen wird die Gewichtsmenge W derart gewählt, daß die Ausgangssignale o
der Units einer Schicht nur an Units der folgenden Schicht weitergegeben werden können. Es gilt demnach
Die Aktivierungsfunktion ist durch die stetig differenzierbare Logistik-Funktion gegeben. Der Aktivationszustand einer Unit ui wird folglich durch:
berechnet und liegt demnach im offenen Intervall ]0,1[.
Abbildung 9 : Stetig differenzierbare Logistik-Funktion Wie zuvor beschrieben, liegt der Ursprung menschlicher Intelligenz in der richtigen Verbindung der Neuronen, welche im Modell durch Units repräsentiert werden. In Analogie dazu liegt die Intelligenz künstlicher neuronaler Netze in der richtigen Wahl der Gewichtsmenge W und damit verbunden in der sinnvollen Interaktion der einfachen Verarbeitungseinheiten. Ein Lernverfahren, mit dessen Hilfe annähernd optimale Gewichte für Multilayer-Feedforward-Netzwerke gefunden werden können, wird im folgenden Abschnitt vorgestellt. |
|
|
|
|
|
Der von Rumelhart, Hinton und Williams 1986 veröffentlichte Backpropagation-Lernalgorithmus
ist wohl die am häufigsten verwendete Methode zur Bestimmung der optimalen Gewichte von Multilayer-Feedforward-Netzwerken.
Der Gesamtfehler über alle Beobachtungen P ergibt sich folglich durch:
und kann als Güte der Approximation gesehen werden.
Sei nun oip der Output einer Unit ui und netjp die zuvor definierte Nettoinputfunktion, so ergibt sich durch die einmalige Differenzierung von Ep nach wij :
Der Faktor
Die Lernregel für die Hidden-Units ergibt sich durch weiteres Anwenden der Kettenregel : (2)
Nach einer zufälligen Initialisierung der Gewichtsmenge W läßt sich der Backpropagation-Lernalgorithmus in vier Schritten beschreiben :
|
|
|
|
|
|
Bei dem Backpropagation-Gradientenabstiegsverfahren werden Gewichte nur in die Richtung verändert,
in der sie zu einer direkten Verringerung der Fehlerfunktion beitragen. Dies hat zur Folge, daß das Verfahren
unter Umständen in einem lokalen Minimum konvergiert und die gelieferten Gewichte demnach nicht dem globalen
Minimum der Fehlerfunktion E entsprechen. Die zu optimierenden Gewichte werden anfangs mit Zufallswerten initialisiert. Diese Gewichte bilden den Startpunkt des Verfahrens auf der Fehlerfunktion und beeinflussen den Trainingsverlauf des Backpropagation-Algorithmus. Bei dessen unglücklicher Wahl kann das Verfahren in einem globalen Minimum konvergieren und dementsprechend nur suboptimale Gewichte liefern. Aufgrund dieser Tatsache sollte der Backpropagation-Algorithmus mehrmals mit unterschiedlichen Anfangsgewichten wiederholt werden. Bei einem ähnlichen Verlauf der Fehlerfunktion kann schließlich auf ein globales Minimum geschlossen werden. Die Wahrscheinlichkeit des Auffindens optimaler Gewichte korreliert folglich mit der durchgeführten Anzahl von Wiederholungen dieses Verfahrens. |
|
|
|
|
|
Erfolgsrelevante Faktoren von Multilayer-Feedforward-Netzwerken
Abbildung 10 : Vorgehensweise beim Trainieren und Validieren neuronaler Netze Die Fähigkeit, das aus einer Trainingsmenge erlernte Wissen auf die Allgemeinheit - in diesem Falle die
Testmenge - zu übertragen, wird als Generalisierung bezeichnet. |
|
|
|
|
|
Das Momentum wurde erstmals von 1986 Rumelhart, Hinton und Williams eingeführt. Es
handelt sich dabei um einen festen Term
wobei n die Iterationsstufe des Lernprozesses darstellt.
Die Beschleunigung mit Hilfe dynamischer Lernraten erfolgt ebenfalls durch Vermeidung von Oszillationen bei
zunehmender Iterationslänge. |