|
|
Data Mining - eine Einführung
Nach einer Studie der Gartner Group werden bis zum Jahre 2000 mindestens die Hälfte
der sogenannten Fortune-1000-Unternehmen Data Mining-Technologien nutzen. Was sich hinter diesem Trend verbirgt,
und welche Möglichkeiten sich für das Database Marketing ergeben, soll im folgenden Beitrag dargestellt
werden.
Der Begriff des Data Mining beinhaltet eine Reihe von Technologien, mit deren Hilfe Unternehmen entscheidungsrelevante
Informationen aus Datenbanken extrahieren können. Diese Technologien setzen sich aus statistischen Modellen
und Verfahren der künstlichen Intelligenz zusammen. Sie ermöglichen die Analyse und Prognose von Verhaltensweisen
und Trends. Data Mining liefert dem Management Erkenntnisse und Zusammenhänge, die bisher verborgen blieben
oder außer acht gelassen worden sind, weil sie entweder für nicht entscheidungsrelevant oder für
nicht analysierbar gehalten wurden.
|
|

Dialog ................
verborgene Schätze ................
scheitern ................
|
Betrachtet man die technologische Entwicklung des Database Marketing, so stellt man fest,
daß gerade in den letzten Jahren enorme Fortschritte bei der Entwicklung von Datenbanken gemacht worden sind.
Neue Architekturen, wie relationale oder objektorientierte Datenbanken, flexible Client Server-Technologien oder
Parallel-Prozessoren, verbesserten die Performance und das Preis-Leistungsverhältnis von Datenbanken drastisch.
Gleichzeitig vollzog sich im Marketing ein Wandel. Der einzelne Kunde und sein individueller Kundenwert rückten
immer mehr in das Aktionsfeld der Manager. Mit dem Kunden einen Dialog eröffnen, von ihm lernen, ihn an das
Unternehmen binden und individuell zu betreuen, waren die neuen Maxime zur Erreichung von Wettbewerbsvorteilen.
Zusätzlich erlebte der Direktvertrieb einen enormen Aufwind. Immer mehr Branchen wie bspw. Banken, Versicherungen,
Computer- und Softwarehersteller sehen in ihm den Vertriebskanal der Zukunft.
In Folge des neuen Marketingdenkens und der technologischen Entwicklung besitzen heute zahlreiche Unternehmen große
Datenbanken mit detaillierten Informationen über ihre Kunden und Interessenten. Neben der bloßen Adresse
liegen oftmals soziodemographische Daten, Kaufinformationen, Potentialdaten sowie Kommunikationsdaten vor. Diese
Informationen werden in der Regel genutzt, um direkt mit dem einzelnen Kunden zu kommunizieren. Auch einfache Managementfragen
lassen sich mit Hilfe der Datenbank beantworten. So stellt es kein Problem dar, die Anzahl oder das Durchschnittsalter
neuer Kunden oder Interessenten auszugeben. In den wenigsten Fällen wird jedoch die Datenbank zur Beantwortung
folgender entscheidungsrelevanter Fragen genutzt:
- Welchen Kunden sollte wann welches Angebot unterbreitet werden?
Bei welchem Kundenprofil lohnt sich ein Außendienstbesuch?
Welche Kunden sind gefährdet?
Wie hoch ist das Cross-Selling-Potential für ein neues Produkt?
Welcher Lifetime-Profit läßt sich mit welchem Kunden erzielen?
Wie lassen sich Top-Interessenten mit hohen Lifetime-Values gewinnen?
Welcher Umsatz wird im nächsten Jahr erzielt?
Kernfrage ist: Warum bleiben gerade diese, für das Management entscheidende, Fragen unbeantwortet?
Betrachtet man den Charakter der Fragestellungen, so liegt die Antwort auf die aufgezählten Fragen nicht in
einem einzelnen Datenfeld oder einem Kundenmerkmal, sondern in der richtigen Kombination unterschiedlicher Kundeninformationen.
So kann bspw. die Angebotsaffinität eines Kunden von einer Vielzahl von Merkmalen wie Alter, Geschlecht, Familienstand,
demographischen Typologien, bisher gekauften Produkten, gezeigtem Produktinteresse, Zahlungsmoral und einer Reihe
weiterer Eigenschaften abhängen.
Zur Analyse dieser Informationsverflechtungen wurden meist speziell ausgebildete Statistiker herangezogen. Diese
gruben sich mühsam mit herkömmlichen statistischen Verfahren und speziellen Softwarepaketen durch den
gesamten Datenberg und versuchten auf diese Weise, die Essenz aus der Datenflut zu extrahieren. Der Arbeitsaufwand
dieser Vorgehensweise war enorm und so konnten viele Fragen entweder erst nach Monaten beantwortet werden oder
blieben im Sumpf von Formeln, statischen Vorbedingungen und daraus resultierenden Transformationen hängen.
An dieser Stelle setzt das Data Minig an. Es ergänzt die statistischen Verfahren um neue Analysemethoden,
die einen Großteil der Untersuchungsprozesse automatisieren und beschleunigen. Bildlich gesprochen durchforsten
Data Mining Technologien selbständig den Datenberg. Im Gegensatz zu den traditionellen Methoden wird nicht
der gesamte Datenberg per Hand mühsam abgebaut und mikroskopisch untersucht, sondern relevante Teile des Berges
werden selbständig identifiziert und analysiert. Dabei bahnen sich die Methoden des Data Mining zielstrebig
den Weg durch die Informationsflut, um schnell die bislang verborgenen Erkenntnisse und Zusammenhänge aufzuzeigen.
|
|
|
Data Mining steht nicht für ein bestimmtes Analyseverfahren, mit dem relevantes Wissen
in Datenbanken extrahiert werden kann, sondern für eine ganze Reihe von nützlichen Analyse- und Steuerungsinstrumenten.
Zum Teil werden diese Technologien schon seit Jahren im Database Marketing eingesetzt. Dies gilt insbesondere für
die klassischen statistischen Verfahren. Auf künstliche Intelligenz basierende Data Mining-Technologien fanden
erst mit der Entwicklung schneller Computer ihren Durchbruch. Folgende Methoden gelten zur Zeit als die gängigsten
Data Mining-Technologien:
Künstliche neuronale Netze - nicht lineare Prognoseverfahren, die der biologischen Informationsverarbeitung
nachempfunden wurden und selbständig lernende Eigenschaften besitzen.
Kohonen Netze - ein Segmentierungsverfahren, das auf den Prinzipien neuronaler Netze basiert und selbständig
Cluster innerhalb eines Datensets bildet.
Lineare Regression - ein klassisches lineares Prognoseverfahren zur Erklärung von Verhaltensweisen mit Hilfe
unabhängiger Variablen.
Genetische Algorithmen - basieren auf den Grundlagen der biologischen Evolution und dienen der Suche nach einer
optimalen Lösung innerhalb eines Lösungsraums.
CHAID - Chi-squared Automatic Interaction Detection - eine Methode, die eine Menge von Datensätzen hinsichtlich
einer abhängigen Variable segmentiert.
Regelbasierte Systeme - sind Methoden, die zur Extraktion und Verifikation von Wenn-Dann-Regeln dienen.
Der Einsatz der unterschiedlichen Methoden hängt stark vom Charakter der Aufgabenstellung ab. So bieten sich
neuronale Netze, lineare Regression und CHAID bei Fragestellungen mit Prognosecharakter an. Kohonen-Netze und regelbasierte
Systeme werden oftmals beim Clustering verwendet. Eine eindeutige Zuordnung der Instrumente nach Aufgabenstellung
ist jedoch nicht möglich. Oftmals werden mehrere Data Mining-Lösungen für dieselbe Aufgabenstellung
entwickelt und gegeneinander ausgetestet. Auch die Kombination unterschiedlicher Methoden innerhalb einer Lösung
ist möglich.
© 2000 Parsis Dastani |