Modul 3 von 15 · 📖 6 min Lesezeit · ⏱ 30 min gesamt
FI-DPA 03 Datenmodellierung und Schemata
Inhaltsverzeichnis (6 Abschnitte)
FI-DPA 03 Datenmodellierung und Schemata
In diesem Modul erlernen Sie die Grundlagen der Datenmodellierung für Data-Warehouse-Systeme. Sie verstehen die Unterschiede zwischen Star-Schema und Snowflake-Architektur, können Fakten- und Dimensionstabellen identifizieren und wissen, welche SCD-Strategien (Slowly Changing Dimensions) für welche Anwendungsfälle geeignet sind.
Konzepte und Hintergrund
- Star Schema
- Ein Datenmodell, das aus einer zentralen Faktenabelle und mehreren Dimensionstabellen besteht, die direkt mit der Fakten verbunden sind. Die Dimensionstabellen sind normalisiert, um Redundanzen zu vermeiden.
- Snowflake Schema
- Eine Variante des Star Schema, bei der Dimensionstabellen weiter normalisiert sind und hierarchische Beziehungen aufweisen. Die Strichtabelle ähnelt einem Schneeflockenmuster, daher der Name.
- Faktentabelle
- Enthält die numerischen Messwerte (Fakten) eines Data-Warehouses, z.B. Verkaufszahlen oder Umsätze. Jede Zeile repräsentiert einen Ereigniszeitpunkt und verweist über Fremdschlüssel auf die zugehörigen Dimensionen.
- Dimensionstabelle
- Enthält beschreibende Attribute, die zur Analyse der Fakten verwendet werden können, z.B. Produktinformationen, Kundendaten oder Zeitangaben. Dimensionstabellen sind in der Regel langsam veränderlich.
- SCD-Strategien (Slowly Changing Dimensions)
- Methoden zur Verwaltung von Änderungen in Dimensionstabellen. Die gängigsten Strategien sind SCD Typ 1 (Überschreiben), SCD Typ 2 (Historisierung) und SCD Typ 3 (Erweiterung mit historischem Wert).
Architektur-Diagramm
flowchart TD
F[Faktentabelle
Verkäufe] --> D1[Produkt-Dimension]
F --> D2[Zeit-Dimension]
F --> D3[Kunden-Dimension]
F --> D4[Standort-Dimension]
D1 --> D1_1[Produktkategorie]
D1 --> D1_2[Produktgruppe]
D2 --> D2_1[Quartal]
D2 --> D2_2[Jahr]
D3 --> D3_1[Region]
D3 --> D3_2[Länderspezifika]
Praktische Schritte
- Definieren Sie die Geschäftsfälle und die zugehörigen Kennzahlen, die modelliert werden sollen. Dies bildet die Grundlage für die Faktenentwurf.
- Identifizieren Sie alle relevanten Dimensionen, die zur Analyse der Kennzahlen benötigt werden, wie Zeit, Produkt, Kunde und Standort.
- Entwerfen Sie die Faktenentwurf mit den numerischen Messwerten und Fremdschlüsseln zu den Dimensionen. Stellen Sie sicher, dass die Faktenentwurf in der dritten Normalform ist.
- Erstellen Sie die Dimensionstabellen mit den beschreibenden Attributen. Normalisieren Sie die Dimensionstabellen entsprechend der gewählten Architektur (Star oder Snowflake).
- Implementieren Sie die SCD-Strategie für jede Dimensionstabelle. Typ 2 ist am häufigsten für historische Analysen erforderlich.
- Erstellen Sie die Datenbanktabellen mit den entsprechenden Primär- und Fremdschlüsselbeziehungen. Verwenden Sie Constraints zur Datenintegrität.
- Implementieren Sie ETL-Prozesse zur Befüllung der Tabellen mit Daten aus Quellsystemen. Dies umfasst Extraktion, Transformation und Ladung.
- Testen Sie das Datenmodell mit realen Daten und validieren Sie die Korrektheit der Aggregationen und Beziehungen.
Häufige Fallstricke
Weiterführende Ressourcen
- Microsoft Learn: Datenmodellierung in Data Warehouses
- Ralph Kimball: The Data Warehouse Toolkit
- IBM Developer: Star Schema vs. Snowflake Schema
- Talend: Slowly Changing Dimensions Guide
- O'Reilly: Data Modeling for SQL Server
Wissens-Check
Vier Fragen zur Selbstkontrolle. Klicken Sie jede Frage an, um die richtige Antwort und Erklärung zu sehen.
Welches der folgenden Datenmodelle ist eine Variante des Star Schema, bei der Dimensionstabellen weiter normalisiert sind und hierarchische Beziehungen aufweisen?
- A) Cube Schema
- B) Snowflake Schema
- C) Galaxy Schema
- D) Flat File Schema
Richtige Antwort: B. Das Snowflake Schema ist eine Erweiterung des Star Schema mit weiter normalisierten Dimensionstabellen, während die anderen Optionen keine gängigen Datenmodelle für Data-Warehouse-Systeme sind.
Welche Art von Tabelle enthält die numerischen Messwerte (Fakten) eines Data-Warehouses, wie z.B. Verkaufszahlen oder Umsätze?
- A) Dimensionstabelle
- B) Attributtabelle
- C) Faktenabelle
- D) Masterdatentabelle
Richtige Antwort: C. Die Faktenabelle enthält die numerischen Messwerte, während die anderen Optionen beschreibende Daten oder andere Arten von Referenzdaten enthalten.
Welche SCD-Strategie (Slowly Changing Dimensions) verwaltet Änderungen in Dimensionstabellen durch Erweiterung mit einem historischen Wert?
- A) SCD Typ 1 (Überschreiben)
- B) SCD Typ 2 (Historisierung)
- C) SCD Typ 3 (Erweiterung mit historischem Wert)
- D) SCD Typ 4 (Neue Tabelle)
Richtige Antwort: C. SCD Typ 3 fügt neue Spalten hinzu, um historische Werte zu speichern, während Typ 1 alte Werte überschreibt und Typ 2 eine vollständige Historisierung mit Zeiträumen erstellt.
Welches der folgenden Datenmodelle besteht aus einer zentralen Faktenabelle und mehreren direkt verbundenen Dimensionstabellen ohne weitere Normalisierung?
- A) Snowflake Schema
- B) Star Schema
- C) Normalisiertes Schema
- D) Entität-Beziehung-Schema
Richtige Antwort: B. Das Star Schema zeichnet sich durch eine zentrale Faktentablelle und direkt verbundene, nicht weiter normalisierte Dimensionstabellen aus, während das Snowflake Schema eine weiter normalisierte Variante ist.