Die wichtigen Prozesse, die für Data Mining, Analyse und Modellierung klar abgegrenzt werden müssen sind:
Datenmodell: welche Daten werden zur Verfügung stehen und wie wird es?
Datenerfassung: wie werden Daten gesammelt werden, sowohl im Hinblick auf die physische und technologische?
Daten: welche Daten gesammelt werden werden?
Datentypen: welche Arten von Daten werden erfasst?
Datenformatierung: wie Daten findet?
Datawarehousing: wo Daten findet?
Datamining: wie werden wir Daten aus dem Warehouse abrufen?
Modellierung von Informationen: wie erstellen wir Modelle und was?
Zugang zu Informationen: wie sollen wir die Datenmodelle und Berichte zugreifen?
Präsentation & Berichtswesen: Was werden wir berichten?
Die meisten Unternehmen möchten wesentliche Informationen über Kunden an jedem Punkt des Kontaktes, z. B. wissen:
Lifetime-Wert
X verkaufen und upgrade-Möglichkeiten
Anschaffungskosten
Kanal-Einstellungen
Loyalität/Aufbewahrung
Kauf-Verhaltensweisen
Ein Großteil der Daten, die sie haben unterschiedliche Frequenzen ändern, Erfrischung oder vorkommen. Es wird für verschiedene Zeiträume aufzubewahren. In einigen Fällen können aggregierte Daten als Quelldaten gespeichert werden. All diese Faktoren beeinflussen die Datenmodellierung, Bewegung und die eventuelle Modellierung Softwareanforderungen.
Die Daten erfordert in nützliche Informationen:
Identifizieren die Probleme behoben
Montage der data set(s)
Erstellen von Modellen
Überprüfen Sie Modelle
Interpretation der Ergebnisse
Automatisierung der Lieferung
Danach haben Modellierung Tools und Techniken verwendet werden. Diese können in zwei Gruppen eingeteilt werden: Theorie getrieben und Daten getrieben.
Theorie-gesteuerte Modellierung (Hypothesentests) versucht zu bestätigen oder zu widerlegen vorgefasste Ideen. Theorie getrieben Modellierungswerkzeugen müssen der Benutzer angeben, die meisten des Modells auf der Grundlage von Insider-Information und dann überprüft, ob das Modell gültig ist.
Datengesteuerte Modellierungswerkzeuge automatisch erstellen Sie das Modell auf der Grundlage von Mustern, die sie in den Daten zu finden. Dies muss auch geprüft werden, bevor es als gültig akzeptiert werden kann.
Modellierung ist ein iterativer Prozess mit das letzte Modell in der Regel wird eine Kombination aus Wissen und neu entdeckte Informationen. Die Motor(en) Tools und Techniken sind:
Statistische Methoden
Daten, die angetriebene Werkzeuge
Korrelation
Cluster-Analyse
t-tests
Faktoranalyse
Varianzanalyse
CHAID (Chi-Quadrat-automatische Interaktion Detektor) Entscheidungsstrukturen
Lineare regression
Visualisierung
Die logistische regression
