CRISP-DM

Das Cross Industry Standard Process Model for Data Mining (CRISP-DM) wurde 1999 von einem Konsortium aus DaimlerChrysler, SPSS und NCR Systems Engineering veröffentlicht und gilt als das vollständigste Modell.

Mit der Intention, ein Prozessmodell für Data Mining unabhängig von der Industrie, der Software und der Anwendung zu erstellen wurde der Prozess in folgenden sechs Phasen aufgeteilt:

  1. Business Understanding (Geschäftsverständnis):  Festlegung der Ziele und Anforderungen; Ableitung der konkreten Aufgabenstellung und der groben Vorgehensweise
  2. Data Understanding (Datenverständnis): Datensammlung bzw. erste Sichtung der zur Verfügung stehenden Daten; Ermittlung möglicher Probleme mit Datenqualität
  3. Data Preparation (Datenvorbereitung): Konstruktion des finalen Datensatzes für die Modellierung
  4. Modeling (Modellierung): Anwendung geeigneter Data Mining-Verfahren, Optimierung der Parameter; gewöhnlich Ermittlung mehrerer Modelle
  5. Evaluation (Evaluierung): Auswahl des Modells, das die Aufgabenstellung am besten erfüllt. Sorgfältiger Abgleich mit der Aufgabenstellung.
  6. Deployment (Bereitstellung): Aufbereitung und Präsentation der Ergebnisse; evtl. Integration des Modells in einen Entscheidungsprozess des Auftraggebers

Der Data-Mining Prozess ist ein iterativer Prozess, in welchem die Phasen mehrfach durchlaufen werden. In allen Durchläufen werden analytische Kenntnisse und Fertigkeiten aus naturwissenschaftlichen Gebieten, wie Statistik und Mathematik eingesetzt.

(Quellen:

Grafik: https://www.kdnuggets.com/2017/01/four-problems-crisp-dm-fix.html

Text: https://statistik-dresden.de/archives/1128)

CRISP DM Prozess Diagramm
CRISP-DM Prozess (Quelle: Statistik Dresden)