Data Mining - eine Einführung

Nach einer Studie der Gartner Group werden bis zum Jahre 2000 mindestens die Hälfte der sogenannten Fortune-1000-Unternehmen Data Mining-Technologien nutzen. Was sich hinter diesem Trend verbirgt, und welche Möglichkeiten sich für das Database Marketing ergeben, soll im folgenden Beitrag dargestellt werden.

Der Begriff des Data Mining beinhaltet eine Reihe von Technologien, mit deren Hilfe Unternehmen entscheidungsrelevante Informationen aus Datenbanken extrahieren können. Diese Technologien setzen sich aus statistischen Modellen und Verfahren der künstlichen Intelligenz zusammen. Sie ermöglichen die Analyse und Prognose von Verhaltensweisen und Trends. Data Mining liefert dem Management Erkenntnisse und Zusammenhänge, die bisher verborgen blieben oder außer acht gelassen worden sind, weil sie entweder für nicht entscheidungsrelevant oder für nicht analysierbar gehalten wurden.

 

 

 








Dialog ................










verborgene Schätze ................

































scheitern ................

Betrachtet man die technologische Entwicklung des Database Marketing, so stellt man fest, daß gerade in den letzten Jahren enorme Fortschritte bei der Entwicklung von Datenbanken gemacht worden sind. Neue Architekturen, wie relationale oder objektorientierte Datenbanken, flexible Client Server-Technologien oder Parallel-Prozessoren, verbesserten die Performance und das Preis-Leistungsverhältnis von Datenbanken drastisch.

Gleichzeitig vollzog sich im Marketing ein Wandel. Der einzelne Kunde und sein individueller Kundenwert rückten immer mehr in das Aktionsfeld der Manager. Mit dem Kunden einen Dialog eröffnen, von ihm lernen, ihn an das Unternehmen binden und individuell zu betreuen, waren die neuen Maxime zur Erreichung von Wettbewerbsvorteilen. Zusätzlich erlebte der Direktvertrieb einen enormen Aufwind. Immer mehr Branchen wie bspw. Banken, Versicherungen, Computer- und Softwarehersteller sehen in ihm den Vertriebskanal der Zukunft.

In Folge des neuen Marketingdenkens und der technologischen Entwicklung besitzen heute zahlreiche Unternehmen große Datenbanken mit detaillierten Informationen über ihre Kunden und Interessenten. Neben der bloßen Adresse liegen oftmals soziodemographische Daten, Kaufinformationen, Potentialdaten sowie Kommunikationsdaten vor. Diese Informationen werden in der Regel genutzt, um direkt mit dem einzelnen Kunden zu kommunizieren. Auch einfache Managementfragen lassen sich mit Hilfe der Datenbank beantworten. So stellt es kein Problem dar, die Anzahl oder das Durchschnittsalter neuer Kunden oder Interessenten auszugeben. In den wenigsten Fällen wird jedoch die Datenbank zur Beantwortung folgender entscheidungsrelevanter Fragen genutzt:

Welchen Kunden sollte wann welches Angebot unterbreitet werden?

Bei welchem Kundenprofil lohnt sich ein Außendienstbesuch?

Welche Kunden sind gefährdet?

Wie hoch ist das Cross-Selling-Potential für ein neues Produkt?

Welcher Lifetime-Profit läßt sich mit welchem Kunden erzielen?

Wie lassen sich Top-Interessenten mit hohen Lifetime-Values gewinnen?

Welcher Umsatz wird im nächsten Jahr erzielt?

Kernfrage ist: Warum bleiben gerade diese, für das Management entscheidende, Fragen unbeantwortet?

Betrachtet man den Charakter der Fragestellungen, so liegt die Antwort auf die aufgezählten Fragen nicht in einem einzelnen Datenfeld oder einem Kundenmerkmal, sondern in der richtigen Kombination unterschiedlicher Kundeninformationen. So kann bspw. die Angebotsaffinität eines Kunden von einer Vielzahl von Merkmalen wie Alter, Geschlecht, Familienstand, demographischen Typologien, bisher gekauften Produkten, gezeigtem Produktinteresse, Zahlungsmoral und einer Reihe weiterer Eigenschaften abhängen.

Zur Analyse dieser Informationsverflechtungen wurden meist speziell ausgebildete Statistiker herangezogen. Diese gruben sich mühsam mit herkömmlichen statistischen Verfahren und speziellen Softwarepaketen durch den gesamten Datenberg und versuchten auf diese Weise, die Essenz aus der Datenflut zu extrahieren. Der Arbeitsaufwand dieser Vorgehensweise war enorm und so konnten viele Fragen entweder erst nach Monaten beantwortet werden oder blieben im Sumpf von Formeln, statischen Vorbedingungen und daraus resultierenden Transformationen hängen.

An dieser Stelle setzt das Data Minig an. Es ergänzt die statistischen Verfahren um neue Analysemethoden, die einen Großteil der Untersuchungsprozesse automatisieren und beschleunigen. Bildlich gesprochen durchforsten Data Mining Technologien selbständig den Datenberg. Im Gegensatz zu den traditionellen Methoden wird nicht der gesamte Datenberg per Hand mühsam abgebaut und mikroskopisch untersucht, sondern relevante Teile des Berges werden selbständig identifiziert und analysiert. Dabei bahnen sich die Methoden des Data Mining zielstrebig den Weg durch die Informationsflut, um schnell die bislang verborgenen Erkenntnisse und Zusammenhänge aufzuzeigen.

 

 

 

Data Mining steht nicht für ein bestimmtes Analyseverfahren, mit dem relevantes Wissen in Datenbanken extrahiert werden kann, sondern für eine ganze Reihe von nützlichen Analyse- und Steuerungsinstrumenten. Zum Teil werden diese Technologien schon seit Jahren im Database Marketing eingesetzt. Dies gilt insbesondere für die klassischen statistischen Verfahren. Auf künstliche Intelligenz basierende Data Mining-Technologien fanden erst mit der Entwicklung schneller Computer ihren Durchbruch. Folgende Methoden gelten zur Zeit als die gängigsten Data Mining-Technologien:

Künstliche neuronale Netze - nicht lineare Prognoseverfahren, die der biologischen Informationsverarbeitung nachempfunden wurden und selbständig lernende Eigenschaften besitzen.

Kohonen Netze - ein Segmentierungsverfahren, das auf den Prinzipien neuronaler Netze basiert und selbständig Cluster innerhalb eines Datensets bildet.

Lineare Regression - ein klassisches lineares Prognoseverfahren zur Erklärung von Verhaltensweisen mit Hilfe unabhängiger Variablen.

Genetische Algorithmen - basieren auf den Grundlagen der biologischen Evolution und dienen der Suche nach einer optimalen Lösung innerhalb eines Lösungsraums.

CHAID - Chi-squared Automatic Interaction Detection - eine Methode, die eine Menge von Datensätzen hinsichtlich einer abhängigen Variable segmentiert.

Regelbasierte Systeme - sind Methoden, die zur Extraktion und Verifikation von Wenn-Dann-Regeln dienen.

Der Einsatz der unterschiedlichen Methoden hängt stark vom Charakter der Aufgabenstellung ab. So bieten sich neuronale Netze, lineare Regression und CHAID bei Fragestellungen mit Prognosecharakter an. Kohonen-Netze und regelbasierte Systeme werden oftmals beim Clustering verwendet. Eine eindeutige Zuordnung der Instrumente nach Aufgabenstellung ist jedoch nicht möglich. Oftmals werden mehrere Data Mining-Lösungen für dieselbe Aufgabenstellung entwickelt und gegeneinander ausgetestet. Auch die Kombination unterschiedlicher Methoden innerhalb einer Lösung ist möglich.

© 2000 Parsis Dastani