Schlussprüfung — Fachinformatiker Daten- und Prozessanalyse

Wissens-Check zum gesamten Kurs 'Fachinformatiker Daten- und Prozessanalyse': 60 Multiple-Choice-Fragen aus 15 Modulen — Antworten und Erklärungen direkt e

60 Fragen 15 Module Empfohlene Bearbeitungszeit: 90 min

FI-DPA 01 Berufsbild und Einsatzfelder 4 Fragen

Was ist die Hauptaufgabe eines Data Analysten?

A) Entwicklung und Wartung von Datenarchitekturen
B) Auswertung von Daten zur Gewinnung von Erkenntnissen
C) Implementierung von Datenbanken und Data Warehouses
D) Extraktion von Ereignisdaten aus IT-Systemen

Richtige Antwort: B. Ein Data Analyst konzentriert sich auf die Auswertung von Daten, um Erkenntnisse zu gewinnen und Entscheidungen zu unterstützen. Die anderen Optionen beschauen eher die Aufgaben eines Data Engineers oder Process Mining-Spezialisten.

Was ist der Hauptunterschied zwischen einem Data Engineer und einem Data Analyst?

A) Data Engineers arbeiten ausschließlich mit numerischen Daten, Data Analysten mit Textdaten
B) Data Engineers entwickeln Dateninfrastrukturen, Data Analysten werten Daten aus
C) Data Engineers sind nur in IT-Unternehmen tätig, Data Analysten in allen Branchen
D) Data Analysten benötigen keine Programmierkenntnisse, Data Engineers schon

Richtige Antwort: B. Data Engineers sind für die Entwicklung und Wartung von Datenarchitekturen verantwortlich, während Data Analysten sich auf die Auswertung von Daten konzentrieren, um Erkenntnisse zu gewinnen. Die anderen Optionen enthalten unzutreffende Aussagen.

Was ist der Zweck von Process Mining?

A) Entwicklung von neuen Geschäftsprozessen
B) Analyse von Geschäftsprozessen durch Extraktion von Ereignisdaten
C) Erstellung von Dashboards für das Management
D) Bereinigung von Rohdaten für die Analyse

Richtige Antwort: B. Process Mining ist eine Technik zur Analyse von Geschäftsprozessen durch Extraktion von Ereignisdaten aus IT-Systemen, um Prozesse objektiv abzubilden und zu optimieren. Die anderen Optionen beschreiben andere Aufgabenbereiche der Datenanalyse.

Welcher Schritt ist der erste in der praktischen Datenanalyse?

A) Implementieren eines ETL-Prozesses
B) Erstellen eines Datenmodells
C) Installieren von Analysewerkzeugen
D) Identifizieren relevanter Datenquellen

Richtige Antwort: D. Das Identifizieren relevanter Datenquellen ist der grundlegende erste Schritt in der Datenanalyse, da alle weiteren Schritte auf dieser Basis aufbauen. Die anderen Optionen sind wichtige, aber nachfolgende Schritte im Analyseprozess.

FI-DPA 02 Prozessmodellierung mit BPMN 4 Fragen

1. Was ist der Hauptzweck der Business Process Model and Notation (BPMN) in der Prozessmodellierung?

A) Die vollständige Automatisierung von Geschäftsprozessen ohne menschliche Eingriffe
B) Die standardisierte grafische Darstellung von Geschäftsprozessen für alle Stakeholder
C) Die reine Dokumentation bestehender Prozesse ohne Optimierungsmöglichkeiten
D) Die Ersetzung aller anderen Prozessmodellierungsmethoden wie UML oder Flowcharts

Richtige Antwort: B. BPMN dient der standardisierten grafischen Darstellung von Geschäftsprozessen, die sowohl technische als auch nicht-technische Personen verstehen können. Option A ist falsch, da BPMN keine vollständige Automatisierung bewirkt. Option C ist falsch, da BPMN nicht nur zur Dokumentation, sondern auch zur Identifizierung von Optimierungspotenzialen dient. Option D ist falsch, da BPMN eine spezialisierte Methode ist, die andere nicht ersetzt.

2. Was stellt ein "Pool" in der BPMN-Darstellung hauptsächlich dar?

A) Eine einzelne Aktivität oder Aufgabe innerhalb eines Prozesses
B) Eine Bedingung oder Regel, die den Prozessfluss steuert
C) Einen Punkt im Prozess, an dem etwas passiert
D) Eine Teilnehmerrolle oder eine Organisationseinheit

Richtige Antwort: D. Ein Pool stellt eine Teilnehmerrolle oder eine Organisationseinheit dar und grenzt den gesamten Prozess von anderen Prozessen ab. Option A beschreibt eine Aktivität, keinen Pool. Option B beschreibt ein Gateway, keinen Pool. Option C beschreibt ein Event, keinen Pool.

3. Welches Element in der BPMN bestimmt den Fluss des Prozesses basierend auf Bedingungen, Regeln oder Parallelität?

A) Event
B) Lane
C) Gateway
D) Pool

Richtige Antwort: C. Ein Gateway bestimmt den Fluss des Prozesses basierend auf Bedingungen, Regeln oder Parallelität. Ein Event (Option A) stellt einen Punkt dar, an dem etwas passiert. Eine Lane (Option B) teilt einen Pool in horizontale Streifen auf. Ein Pool (Option D) stellt eine Teilnehmerrolle oder Organisationseinheit dar.

4. Welcher der folgenden Schritte ist der erste bei der praktischen Anwendung der BPMN-Prozessmodellierung?

A) Zeichnen des Hauptprozessflusses mit Start- und End-Events
B) Identifizieren der beteiligten Rollen und Abteilungen (Pools und Lanes)
C) Definieren des Prozessumfangs und der Ziele
D) Hinzufügen von Details und Ausnahmen zum Modell

Richtige Antwort: C. Zuerst muss der Prozessumfang und die Ziele definiert werden, bevor mit der Modellierung begonnen wird. Option A ist ein späterer Schritt im Modellierungsprozess. Option B erfolgt nach der Definition des Umfangs. Option D ist eine der letzten Phasen der Modellierung.

FI-DPA 03 Datenmodellierung und Schemata 4 Fragen

Welches der folgenden Datenmodelle ist eine Variante des Star Schema, bei der Dimensionstabellen weiter normalisiert sind und hierarchische Beziehungen aufweisen?

A) Cube Schema
B) Snowflake Schema
C) Galaxy Schema
D) Flat File Schema

Richtige Antwort: B. Das Snowflake Schema ist eine Erweiterung des Star Schema mit weiter normalisierten Dimensionstabellen, während die anderen Optionen keine gängigen Datenmodelle für Data-Warehouse-Systeme sind.

Welche Art von Tabelle enthält die numerischen Messwerte (Fakten) eines Data-Warehouses, wie z.B. Verkaufszahlen oder Umsätze?

A) Dimensionstabelle
B) Attributtabelle
C) Faktenabelle
D) Masterdatentabelle

Richtige Antwort: C. Die Faktenabelle enthält die numerischen Messwerte, während die anderen Optionen beschreibende Daten oder andere Arten von Referenzdaten enthalten.

Welche SCD-Strategie (Slowly Changing Dimensions) verwaltet Änderungen in Dimensionstabellen durch Erweiterung mit einem historischen Wert?

A) SCD Typ 1 (Überschreiben)
B) SCD Typ 2 (Historisierung)
C) SCD Typ 3 (Erweiterung mit historischem Wert)
D) SCD Typ 4 (Neue Tabelle)

Richtige Antwort: C. SCD Typ 3 fügt neue Spalten hinzu, um historische Werte zu speichern, während Typ 1 alte Werte überschreibt und Typ 2 eine vollständige Historisierung mit Zeiträumen erstellt.

Welches der folgenden Datenmodelle besteht aus einer zentralen Faktenabelle und mehreren direkt verbundenen Dimensionstabellen ohne weitere Normalisierung?

A) Snowflake Schema
B) Star Schema
C) Normalisiertes Schema
D) Entität-Beziehung-Schema

Richtige Antwort: B. Das Star Schema zeichnet sich durch eine zentrale Faktentablelle und direkt verbundene, nicht weiter normalisierte Dimensionstabellen aus, während das Snowflake Schema eine weiter normalisierte Variante ist.

FI-DPA 04 ETL/ELT-Strecken 4 Fragen

Was ist der Hauptunterschied zwischen ETL und ELT?

A) ETL verarbeitet Daten in der Cloud, ELT lokal
B) Bei ETL erfolgt die Transformation vor dem Laden, bei ELT nach dem Laden
C) ETL nutzt immer Staging-Areas, ELT nicht
D) ELT ist nur für Big-Data-Umgebungen geeignet

Richtige Antwort: B. Der wesentliche Unterschied liegt im Zeitpunkt der Transformation: ETL transformiert Daten vor dem Laden ins Zielsystem, während ELT Daten zuerst lädt und dann im Zielsystem transformiert.

Warum ist Idempotenz in ETL-Prozessen wichtig?

A) Sie reduziert den Speicherbedarf der Datenbank
B) Sie ermöglicht die wiederholte Ausführung von Pipelines ohne Ergebnisänderung
C) Sie beschleunigt die Datenextraktion
D) Sie ist nur bei ELT-Prozessen relevant

Richtige Antwort: B. Idempotenz stellt sicher, dass die wiederholte Ausführung einer Pipeline zum identischen Ergebnis führt, was für die Datenkonsistenz bei Fehlern oder Neustarts entscheidend ist.

Welche Aufgabe hat eine Staging-Area in einem ETL-Prozess?

A) Sie dient als primäre Datenspeicherung für Endanwender
B) Sie bereinigt, validiert und bereitet Daten für das Zielsystem vor
C) Sie ersetzt das Data Warehouse vollständig
D) Sie ist nur für ELT-Prozesse erforderlich

Richtige Antwort: B. Die Staging-Area fungiert als Zwischenstation, in der Daten bereinigt, validiert und transformiert werden, bevor sie ins Zielsystem geladen werden.

Welches Tool wird primär zur Orchestrierung von ETL-Pipelines eingesetzt?

A) dbt
B) Talend
C) Apache Airflow
D) SQL

Richtige Antwort: C. Apache Airflow ist speziell für die Orchestrierung komplexer Workflows und Datenpipelines entwickelt, während dbt sich auf die Transformation konzentriert und Talend eine umfassende ETL-Plattform ist.

FI-DPA 05 Datenqualität messen und sichern 4 Fragen

Welche der folgenden Datenqualitätskriterien stellt sicher, dass Daten über verschiedene Systeme hinweg übereinstimmen?

A) Vollständigkeit
B) Konsistenz
C) Genauigkeit
D) Validität

Richtige Antwort: B. Konsistenz stellt sicher, dass Daten über verschiedene Systeme oder Datensätze hinweg übereinstimmen. Vollständigkeit bezieht sich auf das Vorhandensein aller erwarteten Daten, Genauigkeit auf die Richtigkeit der Werte, und Validität ist ein allgemeinerer Begriff für die Übereinstimmung mit festgelegten Regeln.

Welches Werkzeug wird im Modul als Open-Source-Framework zur Erstellung, Validierung und Dokumentation von Datenqualitäts-Expectations vorgestellt?

A) Pandas
B) NumPy
C) Great Expectations
D) SQLAlchemy

Richtige Antwort: C. Great Expectations ist das im Modul vorgestellte Framework zur automatisierten Überwachung der Datenqualität. Pandas und NumPy sind Bibliotheken für Datenmanipulation und numerische Berechnungen, und SQLAlchemy ist ein Toolkit für SQL-Datenbanken.

Welche Methode wird im Modul als systematischer Prozess zur Untersuchung der Eigenschaften von Datenbeständen beschrieben, um Struktur, Inhalt und Qualität zu verstehen?

A) Datenbereinigung
B) Datenprofiling
C) Datenmodellierung
D) Datenaggregation

Richtige Antwort: B. Datenprofiling ist der systematische Prozess zur Untersuchung der Eigenschaften von Datenbeständen. Datenbereinigung bezieht sich auf das Entfernen von Fehlern, Datenmodellierung auf die Strukturdefinition, und Datenaggregation auf das Zusammenfassen von Daten.

Welche der folgenden Python-Bibliotheken wird im Modul zur Durchführung von Datenprofiling mit statistischen Kennzahlen und Verteilungen empfohlen?

A) TensorFlow
B) Matplotlib
C) Pandas
D) Scikit-learn

Richtige Antwort: C. Pandas wird im Modul für Datenprofiling empfohlen, wie im Codebeispiel mit df.describe() und df.isnull().sum() gezeigt. TensorFlow ist für maschinelles Lernen, Matplotlib für Visualisierungen, und Scikit-learn für maschinelles Lernen und Datenmodellierung.

FI-DPA 06 SQL für Analytik 4 Fragen

Was ist der Hauptunterschied zwischen Window Functions und regulären Aggregatfunktionen in SQL?

A) Window Functions können nur auf numerische Daten angewendet werden
B) Window Functions gruppieren Zeilen nicht, sondern führen Berechnungen auf einem Fenster von Zeilen durch
C) Window Functions erfordern immer eine GROUP BY-Klausel
D) Window Functions können nur mit der DISTINCT-Klausel verwendet werden

Richtige Antwort: B. Window Functions arbeiten auf einem Fenster von Zeilen, ohne diese zu gruppieren, während reguläre Aggregatfunktionen Zeilen gruppieren und pro Gruppe einen Wert zurückgeben. Option A ist falsch, da Window Functions auf verschiedenen Datentypen arbeiten. Option C ist falsch, da Window Functions ohne GROUP BY funktionieren. Option D ist falsch, da DISTINCT nicht mit Window Functions verwendet wird.

Welches ist der Hauptvorteil der Verwendung von Common Table Expressions (CTEs) in komplexen SQL-Abfragen?

A) CTEs verbessern die Performance von Abfragen immer
B) CTEs ermöglichen rekursive Abfragen
C) CTEs erhöhen die Lesbarkeit und Modularität von Abfragen
D) CTEs können nur mit SELECT-Anweisungen verwendet werden

Richtige Antwort: C. CTEs verbessern die Lesbarkeit und Modularität, indem sie komplexe Abfragen in logische, benannte Teile zerlegen. Option A ist falsch, da CTEs nicht immer die Performance verbessern. Option B ist teilweise richtig, aber nicht der Hauptvorteil. Option D ist falsch, da CTEs mit INSERT, UPDATE, DELETE etc. verwendet werden können.

Was ist der Hauptzweil von Pivot/Unpivot-Operationen in SQL?

A) Daten zu komprimieren, um Speicherplatz zu sparen
B) Daten zwischen verschiedenen Tabellen zu verschieben
C) Datenstruktur zu ändern, indem Zeilen in Spalten und umgekehrt transformiert werden
D) Daten zu verschlüsseln, um Sicherheit zu erhöhen

Richtige Antwort: C. Pivot/Unpivot-Operationen ändern die Datenstruktur, indem sie Zeilen in Spalten (Pivot) oder Spalten in Zeilen (Unpivot) transformieren, oft für Berichte oder Dashboards. Option A ist falsch, da es nicht primär um Kompression geht. Option B ist falsch, da es nicht um das Verschieben von Daten geht. Option D ist falsch, da es keine Verschlüsselung ist.

Was können Sie aus einem EXPLAIN-Plan einer SQL-Abfrage nicht direkt ableiten?

A) Die geschätzten Kosten der Abfrage
B) Die genauen Datensätze, die von der Abfrage zurückgegeben werden
C) Die verwendete Join-Strategie
D) Die Reihenfolge der Operationen

Richtige Antwort: B. Ein EXPLAIN-Plan zeigt die Ausführungsstrategie, Kosten, Join-Methoden und Reihenfolge der Operationen, aber nicht die tatsächlichen Datensätze, die zurückgegeben werden. Option A ist falsch, da Kosten im EXPLAIN-Plan enthalten sind. Option C ist falsch, da Join-Strategien im EXPLAIN-Plan enthalten sind. Option D ist falsch, da die Reihenfolge der Operationen im EXPLAIN-Plan enthalten ist.

FI-DPA 07 BI-Tools — Power BI und Metabase 4 Fragen

Was ist der Hauptunterschied zwischen DAX und Excel-Formeln?

A) DAX kann nur mit Zahlen arbeiten, Excel-Formeln auch mit Text
B) DAX ist für komplexe Datenmodelle optimiert, Excel-Formeln für einfache Tabellenkalkulation
C) DAX unterstützt keine Referenzen zu Zellen, nur zu ganzen Tabellen
D) DAX kann nur in Power BI verwendet werden, Excel-Formeln sind universell einsetzbar

Richtige Antwort: B. DAX ist speziell für BI-Tools und komplexe Datenmodelle entwickelt, während Excel-Formeln für tabellarische Kalkulation optimiert sind. DAX kann mit Text arbeiten und wird auch in anderen Microsoft-Produkten eingesetzt.

Welches Prinzip ist bei der Gestaltung von Dashboards besonders wichtig?

A) Maximale Informationsdichte, um alle relevanten Daten auf einen Blick zu zeigen
B) Verwendung von möglichst vielen verschiedenen Diagrammtypen für Abwechslung
C) Konsistente Visualisierung und Fokussierung auf die wichtigsten KPIs
D)</strong) Vermeidung von Interaktionsmöglichkeiten, um Verwirrung zu reduzieren</li>

Richtige Antwort: C. Konsistente Visualisierung und Fokussierung auf die wichtigsten KPIs sind entscheidend für klare, verständliche Dashboards. Zu viele Informationen oder Diagrammtypen können überfordern, während Interaktion die Benutzererfahrung verbessert.

Was ist der Hauptvorteil von Metabase im Vergleich zu Power BI?

A) Metabase bietet deutlich mehr Visualisierungsmöglichkeiten

B) Metabase ist Open-Source und erfordert keine SQL-Kenntnisse für die Datenexploration

C)</strong) Metabase kann mit deutlich mehr Datenquellen gleichzeitig arbeiten</li>
D) Metabase bietet fortschrittlichere DAX-Funktionen

Richtige Antwort: B. Metabase ist Open-Source und ermöglicht die Datenexploration ohne tiefgehende SQL-Kenntnisse, während Power BI stärker auf DAX und komplexe Datenmodellierung ausgerichtet ist. Metabase hat nicht unbedingt mehr Visualisierungsoptionen oder fortgeschrittenere DAX-Funktionen.

Welcher Prozess ist im Architektur-Diagramm der erste Schritt der Datenverarbeitung?

A) Datenmodell erstellen

B) Dashboards im Web-Browser anzeigen

C) ETL-Prozess durchführen

D) Datenquellen definieren

Richtige Antwort: D. Datenquellen definieren ist der erste Schritt, da ohne Datenquellen kein ETL-Prozess, Datenmodell oder Dashboard erstellt werden kann. Der ETL-Prozess kommt erst nach der Definition der Datenquellen zum Einsatz.

FI-DPA 08 KPI-Systeme und Reporting 4 Fragen

1. Welche der folgenden Aussagen beschreibt Balanced Scorecards am genauesten?

A) Ein reines Finanzsystem zur Messung der Rentabilität
B) Ein strategisches Managementsystem, das Unternehmensziele in vier Perspektiven gliedert
C) Eine Methode zur reinen Prozessoptimierung ohne strategischen Bezug
D) Ein Tool zur reinen Datenerhebung ohne Analysefunktion

Richtige Antwort: B. Die Balanced Scorecard gliedert Unternehmensziele in vier Perspektiven: Finanzen, Kunden, interne Prozesse und Lernen & Wachstum. Option A ist falsch, da die Balanced Scorecard über Finanzen hinausgeht. Option C ist falsch, da sie strategische Ziele einbezieht. Option D ist falsch, da sie Analysefunktionen umfasst.

2. Welche Kriterien müssen SMART-KPIs erfüllen?

A) Simple, Measurable, Achievable, Relevant, Time-bound
B) Specific, Measurable, Achievable, Relevant, Time-bound
C) Strategic, Measurable, Actionable, Realistic, Timely
D) Significant, Measurable, Applicable, Reliable, Targeted

Richtige Antwort: B. SMART-KPIs müssen Specific (spezifisch), Measurable (messbar), Achievable (erreichbar), Relevant (relevant) und Time-bound (zeitgebunden) sein. Option A ist falsch, da "Simple" nicht Teil des Akronym ist. Option C ist falsch, da "Strategic" und "Timely" nicht korrekte Abkürzungen sind. Option D ist falsch, da die Begriffe nicht zum SMART-Konzept passen.

3. Welche Komponente ist in der Architektur eines KPI-Systems nicht Teil des ETL-Prozesses?

A) Extract (Datenextraktion)
B) Transform (Datenumwandlung)
C) Load (Datenausgabe)
D) Analyze (Datenanalyse)

Richtige Antwort: D. Der ETL-Prozess besteht aus Extract (Extrahieren), Transform (Transformieren) und Load (Laden). Die Datenanalyse (Analyze) ist ein separater Schritt, der nach dem ETL-Prozess stattfindet. Option A, B und C sind falsch, da sie alle zum ETL-Prozess gehören.

4. Welche Aussage zur Berichts-Granularität ist korrekt?

A) Eine hohe Granularität ist für alle Entscheidungsebenen am besten geeignet
B) Management benötigt detailliertere Daten als operative Mitarbeiter
C) Die Granularität sollte an die Bedürfnisse verschiedener Entscheidungsebenen angepasst sein
D) Berichte sollten immer maximal detailliert sein, um keine Informationen zu verlieren

Richtige Antwort: C. Die Berichts-Granularität muss an die Bedürfnisse verschiedener Entscheidungsebenen angepasst sein. Option A ist falsch, da unterschiedliche Ebenen unterschiedliche Detailtiefen benötigen. Option B ist falsch, da Management typischerweise aggregierte Daten benötigt, während operative Mitarbeiter detailliertere Einblicke benötigen. Option D ist falsch, da zu detaillierte Berichte unübersichtlich und weniger nützlich sein können.

FI-DPA 09 Process Mining — Celonis und Disco 4 Fragen

Was ist die primäre Funktion von Process Mining?

A) Die manuelle Gestaltung von Geschäftsprozessen
B) Die objektive Analyse von Geschäftsprozessen auf Basis von Ereignisprotokollen
C) Die Entwicklung neuer Software für Prozessmanagement
D) Die Erstellung von Organisationscharts

Richtige Antwort: B. Process Mining ermöglicht die objektive Analyse von Geschäftsprozessen auf Basis von Ereignisprotokollen, um reale Abläufe zu verstehen und zu optimieren. Option A beschreibt Prozessdesign, Option C Softwareentwicklung und Option D Organisationsstruktur, nicht aber die Kernfunktion von Process Mining.

Was ist ein Event-Log im Kontext von Process Mining?

A) Ein Protokoll von Systemfehlern und Ausnahmen
B) Ein strukturiertes Datenset, das die Abfolge von Ereignissen in einem Prozess mit Zeitstempeln, Fall-IDs und Aktivitätsinformationen erfasst
C) Eine Sammlung von Benutzerkommentaren zu Prozessschritten
D) Ein Bericht über die Performance von Mitarbeitern

Richtige Antwort: B. Ein Event-Log ist ein strukturiertes Datenset, das die Abfolge von Ereignissen in einem Prozess mit Zeitstempeln, Fall-IDs und Aktivitätsinformationen erfasst und die Grundlage für jede Process-Mining-Analyse bildet. Option A beschreibt Fehlerprotokolle, Option C Benutzerfeedback und Option D Performancebewertungen, nicht aber die spezifische Struktur eines Event-Logs.

Was ist das Hauptziel einer Conformance Checking-Analyse?

A) Die Vorhersage zukünftiger Prozessveränderungen
B) Die Überprüfung der Übereinstimmung zwischen dem realen Prozess und dem Soll-Modell
C) Die Automatisierung von Prozessschritten
D) Die Visualisierung von Prozessabläufen ohne Vorwissen

Richtige Antwort: B. Conformance Checking überprüft die Übereinstimmung zwischen dem realen Prozess (wie er im Event-Log abgebildet ist) und dem Soll-Modell, um Abweichungen, Ineffizienzen und Regelverstöße aufzudecken. Option A beschreibt Trendanalysen, Option C Prozessautomatisierung und Option D Discovery-Analysen, nicht aber den Kern von Conformance Checking.

Welche der folgenden Aussagen beschreibt am besten den Zweck einer Performance Analysis im Process Mining?

A) Die Identifikation der häufigsten Prozesspfade
B) Die Bewertung von Prozessmetriken wie Durchlaufzeiten, Wartezeiten und Engpässen
C) Die Validierung der Datenintegrität in Event-Logs
D) Die Erstellung von Soll-Prozessmodellen

Richtige Antwort: B. Performance Analysis bewertet Prozessmetriken wie Durchlaufzeiten, Wartezeiten und Engpäße, um Bottlenecks zu identifizieren und Verbesserungspotenziale quantitativ zu bewerten. Option A beschreibt Discovery-Analysen, Option C Datenvalidierung und Option D Prozessmodellierung, nicht aber den spezifischen Fokus von Performance Analysis.

FI-DPA 10 Statistik-Basics für Analysten 4 Fragen

Welches der folgenden Streuungsmaße ist in der gleichen Einheit wie die ursprünglichen Daten?

A) Varianz
B) Standardabweichung
C) Spannweite
D) Quartilsabstand

Richtige Antwort: B. Die Standardabweichung ist die Quadratwurzel der Varianz und befindet sich in der gleichen Einheit wie die ursprünglichen Daten. Die Varianz ist in quadrierten Einheiten, während Spannweite und Quartilsabstand zwar in der gleichen Einheit sind, aber andere Aspekte der Streuung messen.

Was ist die Hauptunterscheidung zwischen Korrelation und Kausalität?

A) Korrelation ist immer linear, Kausalität ist nichtlinear
B) Korrelation beschreibt eine Beziehung, Kausalität beschreibt eine Ursache-Wirkung-Beziehung
C) Korrelation kann nur zwischen numerischen Variablen existieren, Kausalität auch zwischen kategorialen
D) Korrelation ist immer positiv, Kausalität kann auch negativ sein

Richtige Antwort: B. Korrelation beschreibt lediglich, dass zwei Variablen zusammen variieren, während Kausalität bedeutet, dass eine Veränderung einer Variable direkt zu einer Veränderung der anderen führt. Korrelation ist notwendige, aber nicht hinreichende Bedingung für Kausalität.

Welches Lagemaß ist am robustesten gegenüber Ausreißern?

A) Mittelwert
B) Modus
C) Median
D) Arithmetisches Mittel

Richtige Antwort: C. Der Median ist der mittlere Wert in geordneten Daten und wird nicht von extremen Werten (Ausreißern) beeinflusst. Der Mittelwert und das arithmetische Mittel sind identisch und werden stark von Ausreißern beeinflusst, während der Modus zwar auch robust ist, aber nicht immer einzigartig definiert ist.

Was ist der erste Schritt in einem systematischen Hypothesentest?

A) Berechnung des p-Werts
B) Formulierung der Null- und Alternativhypothese
C) Auswahl des Signifikanzniveaus
D) Berechnung des Teststatistik

Richtige Antwort: B. Zuerst müssen die zu testenden Hypothesen klar formuliert werden. Erst danach können Signifikanzniveau und Teststatistik ausgewählt und berechnet werden, und schließlich der p-Wert bestimmt werden.

FI-DPA 11 Datenschutz, DSGVO und Anonymisierung 4 Fragen

Was ist das Hauptziel der k-Anonymität in der Datenanonymisierung?

A) Maximierung der Datenpräzision
B) Verhinderung der Identifizierung einzelner Personen
C)</strong) Reduzierung des Datenvolumens</li>
D) Beschleunigung der Datenverarbeitung

Richtige Antwort: B. k-Anonymität soll sicherstellen, dass Personen in einem Datensatz nicht identifiziert werden können, indem jede Person mit mindestens k-1 anderen identische Merkmale hat. Die anderen Optionen beschreiben nicht das Hauptziel der k-Anonymität.

Was ist ein wesentliches Merkmal von Differential Privacy?

A)</strong) Vollständige Entfernung aller personenbezogenen Daten</li>
B) Sicherstellung, dass das Hinzufügen oder Entfernen einer einzelnen Person die Analyseergebnisse nicht signifikant verändert

C)</strong) Umkehrbarkeit der Anonymisierung auf Anfrage</li>
D)</strong) Garantie der 100%igen Genauigkeit der Datenanalyse</li>

Richtige Antwort: B. Differential Privacy basiert auf dem mathematischen Prinzip, dass einzelne Datenpunkte keinen signifikanten Einfluss auf das Ergebnis haben. Die anderen Optionen beschreiben nicht das Kernkonzept der Differential Privacy.

Was versteht man unter Auftragsverarbeitung im Kontext der DSGVO?

A) Die Verarbeitung von Daten durch einen Verantwortlichen ohne externe Hilfe

B) Die Verarbeitung von Daten durch einen Dritten im Auftrag des Verantwortlichen mit vertraglicher Vereinbarung

C)</strong) Die automatisierte Verarbeitung von Daten ohne menschliches Eingreifen</li>
D) Die Verarbeitung von Daten zu Werbezwecken ohne Einwilligung

Richtige Antwort: B. Auftragsverarbeitung bedeutet, dass ein Datenverarbeiter im Auftrag des Verantwortlichen personenbezogene Daten verarbeitet, wobei eine vertragliche Vereinbarung zur Einhaltung der Datenschutzvorschriften getroffen wird. Die anderen Optionen beschreiben nicht den korrekten Begriff der Auftragsverarbeitung.

Was ist durch das Profiling-Verbot in der DSGVO explizit untersagt?

A) Die Analyse von Kundenzufriedenheitsumfragen

B) Die automatisierte Verarbeitung zur Bewertung persönlicher Aspekte wie Gesundheit oder wirtschaftliche Lage

C)</strong) Die Erstellung von Statistiken über demografische Daten</li>
D) Die Klassifizierung von Produkten für Kataloge

Richtige Antwort: B. Das Profiling-Verbot verbietet die automatisierte Verarbeitung personenbezogener Daten zur Bewertung persönlicher Aspekte, insbesondere um Vorhersagen über Arbeitsleistung, wirtschaftliche Lage, Gesundheit oder persönliche Vorlieben zu treffen. Die anderen Optionen beschreiben nicht explizit durch das Profiling-Verbot untersagte Tätigkeiten.

FI-DPA 12 Projekt — Process-Discovery-Fallstudie 4 Fragen

Was ist das primäre Ziel der Process-Discovery-Analyse?

A) Überprüfung, ob reale Prozesse mit Soll-Modellen übereinstimmen
B) Identifizierung unbekannter oder impliziter Prozessmodelle aus Ereignisdaten
C) Berechnung von Prozesskennzahlen zur Überwachung
D) Automatisierung von Geschäftsprozessen

Richtige Antwort: B. Process-Discovery zielt darauf ab, unbekannte Prozessmodelle aus Ereignisdaten zu identifizieren, ohne vordefinierte Annahmen zu treffen. Option A beschreibt Conformance Checking, Option C KPI-Dashboards und Option D ist eine Prozessautomatisierung.

Welches Format wird typischerweise für Event Logs in Process-Mining-Analysen verwendet?

A) XML
B) CSV
C) XES
D) JSON

Richtige Antwort: C. XES (eXtensible Event Stream) ist der Standardformat für Event Logs in Process-Mining. Während CSV und JSON auch verwendet werden können, ist XES speziell für Process-Mining-Analysen entwickelt worden. XML ist zwar verwandt, aber nicht das primäre Format.

Was ist der Hauptunterschied zwischen Process Discovery und Conformance Checking?

A) Process Discovery nutzt KPI-Dashboards, Conformance Checking nicht
B) Process Discovery identifiziert unbekannte Prozesse, Conformance Checking prüft Übereinstimmung mit Soll-Modellen
C) Process Discovery erfordert Event Logs, Conformance Checking nicht
D) Process Discovery ist für reale Daten, Conformance Checking nur für simulierte Daten

Richtige Antwort: B. Process Discovery identifiziert unbekannte Prozessmodelle aus Ereignisdaten, während Conformance Checking prüft, ob reale Prozesse mit referenzierten Modellen übereinstimmen. Beide Ansätze können Event Logs verwenden und sind nicht auf bestimmte Datentypen beschränkt.

Welches Element der Architektur ist direkt nach dem ETL-Prozess in der Process-Mining-Pipeline positioniert?

A) KPI-Berechnung
B) Dashboard
C) Prozessvisualisierung
D) Process-Mining-Tool

Richtige Antwort: D. Nach dem ETL-Prozess (Extrahieren, Transformieren, Laden) folgen die Daten dem Process-Mining-Tool, wo die eigentliche Analyse stattfindet. Die KPI-Berechnung und Visualisierung erfolgen erst später, nachdem das Tool die Daten verarbeitet hat.

FI-DPA 13 Maschinelles Lernen — Grundlagen und Algorithmen 4 Fragen

Was ist der Hauptunterschied zwischen überwachtem und unüberwachtem Lernen?

A) Überwachtes Lernen verwendet immer neuronale Netze, unüberwachtes Lernen nicht
B) Überwachtes Lernen benötigt gelabelte Daten, unüberwachtes Lernen arbeitet mit ungelabelten Daten
C) Überwachtes Lernen ist immer genauer als unüberwachtes Lernen
D) Überwachtes Lernen kann nur mit numerischen Daten arbeiten, unüberwachtes Lernen auch mit kategorialen Daten

Richtige Antwort: B. Der entscheidende Unterschied liegt in der Verwendung gelabelter Daten beim überwachten Lernen, während unüberwachtes Lernen ohne vordefinierte Labels arbeitet. Option A ist falsch, da beide Lernformen verschiedene Algorithmen umfassen. Option C ist nicht allgemein gültig, da die Genauigkeit von der Problemstellung abhängt. Option D ist falsch, da beide Lernformen mit verschiedenen Datentypen arbeiten können.

Zu welcher Kategorie des maschinellen Lernens gehört die Vorhersage von Hauspreisen basierend auf Merkmalen wie Größe, Lage und Baujahr?

A) Klassifikation
B) Clustering
C) Regression
D) Hauptkomponentenanalyse

Richtige Antwort: C. Regression ist die Vorhersage kontinuierlicher Werte wie Preise. Klassifikation wäre falsch, da sie in Kategorien einteilt. Clustering ist unüberwachtes Lernen und PCA dient der Dimensionsreduktion, nicht der Vorhersage.

Welches Problem entsteht, wenn ein maschinelles Lernmodell zu sehr an die Trainingsdaten angepasst ist?

A) Unteranpassung (Underfitting)
B) Überanpassung (Overfitting)
C) Das Bias-Variance-Dilemma
D) Das Problem der hohen Dimensionalität

Richtige Antwort: B. Überanpassung tritt auf, wenn das Modell zu spezifisch für die Trainingsdaten wird und nicht gut auf neue Daten generalisiert. Unteranpassung ist das Gegenteil. Das Bias-Variance-Dilemma beschreibt den trade-off zwischen beiden, ist aber nicht das Problem selbst. Hohe Dimensionalität bezieht sich auf die Anzahl der Merkmale.

Welcher der folgenden Algorithmen gehört zum unüberwachten Lernen?

A) Decision Tree
B) Random Forest
C) k-NN
D) k-Means

Richtige Antwort: D. k-Means ist ein Clustering-Algorithmus, der zu unüberwachtem Lernen gehört, da er ohne gelabelte Daten arbeitet. Decision Tree, Random Forest und k-NN sind alle Methoden des überwachten Lernens, die gelabelte Daten benötigen.

FI-DPA 14 ML-Pipeline — Daten, Training, Evaluation 4 Fragen

Was ist der Hauptzweil des Feature Engineerings in einer ML-Pipeline?

A) Die Reduzierung der Datengröße zur schnelleren Verarbeitung
B) Die Transformation und Auswahl von Features zur Verbesserung der Modellleistung
C) Die vollständige Automatisierung des Datenprozesses
D) Die Eliminierung aller kategorialen Variablen aus dem Datensatz

Richtige Antwort: B. Feature Engineering zielt darauf ab, durch gezielte Transformation und Auswahl von Features die Leistung von ML-Modellen zu verbessern, während die anderen Optionen nur Teilaspekte oder Fehlinterpretationen dieses Prozesses darstellen.

Warum wird ein Datensatz in Trainings-, Validierungs- und Testmengen aufgeteilt?

A) Um die Speicherkapazität zu reduzieren und die Verarbeitung zu beschleunigen
B) Um die Modellleistung auf ungesehenen Daten objektiv bewerten zu können
C) Um die Anzahl der Features zu reduzieren und Overfitting zu vermeiden
D) Um die Datenqualität zu verbessern und fehlende Werte zu korrigieren

Richtige Antwort: B. Die Aufteilung ermöglicht eine objektive Bewertung der Modellleistung auf ungesehenen Daten, während die anderen Optionen nicht den Hauptzweck dieser Aufteilung beschreiben.

Was ist der Hauptvorteil von Cross-Validation im Vergleich zum einfachen Train/Test-Split?

A) Es reduziert die Rechenzeit des Trainingsprozesses erheblich
B) Es ermöglicht eine zuverlässigere Bewertung der Modellleistung durch mehrfache Aufteilungen
C) Es eliminiert die Notwendigkeit von Hyperparameter-Tuning
D) Es automatisiert das Feature Engineering vollständig

Richtige Antwort: B. Cross-Validation liefert eine robustere Schätzung der Modellleistung, da sie die Abhängigkeit von einer bestimmten Datenaufteilung minimiert, während die anderen Optionen keine korrekten Vorteile von Cross-Validation beschreiben.

Welche Metrik wäre am besten geeignet, um die Leistung eines Klassifikationsmodells bei unausgeglichenen Klassen zu bewerten?

A) Accuracy (Genauigkeit)
B) ROC-AUC
C) RMSE (Wurzel des mittleren quadratischen Fehlers)
D) Durchschnittliche Precision

Richtige Antwort: B. ROC-AUC ist besonders bei unausgeglichenen Klassen geeignet, da sie die Trennfähigkeit des Modells über verschiedene Schwellenwerte hinweg bewertet, während Accuracy bei unausgeglichenen Klassen irreführend sein kann und RMSE für Regression, nicht Klassifikation verwendet wird.

FI-DPA 15 MLOps — Modelle produktiv betreiben 4 Fragen

Was ist der primäre Zweck eines Model Registry in MLOps?

A) Das automatische Training von Modellen
B) Ein zentraler Speicherort für Modelle in verschiedenen Versionen mit Metadaten-Verwaltung
C) Die Visualisierung von Modellausgaben
D) Die Datenerfassung für das Training

Richtige Antwort: B. Ein Model Registry dient als zentraler Speicher für Modelle in verschiedenen Versionen und verwaltet deren Metadaten und Lebenszyklus. Option A beschreibt das Training, nicht die Speicherung. Option C ist Aufgabe von XAI-Tools und Option D betrifft die Datenvorverarbeitung.

Was ist der Hauptzweck von A/B-Testing im Kontext von ML-Modellen?

A) Die automatische Aktualisierung von Modellen
B) Die kontinuierliche Überwachung von Modellausgaben
C) Der objektive Vergleich von zwei Modellen durch den Einsatz an verschiedenen Benutzergruppen
D) Die Erklärung von Modellausgaben

Richtige Antwort: C. A/B-Testing vergleicht zwei Modelle, indem verschiedene Benutzergruppen unterschiedliche Versionen erhalten, um die Leistung objektiv zu bewerten. Option A beschcribes Retraining, Option B ist Drift Detection und Option D ist Aufgabe von XAI.

Was ist Explainable AI (XAI) im Kontext von MLOps?

A) Ein Verfahren zur automatischen Modelloptimierung
B) Methoden zur Erklärung von Modellausgaben für Transparenz und Vertrauen
C) Ein System zur Versionsverwaltung von Trainingsdaten
D) Ein Protokoll für die Modellbereitstellung

Richtige Antwort: B. XAI umfasst Methoden zur Erklärung von Vorhersagen maschineller Lernmodelle, um Transparenz und Vertrauen zu schaffen. Option A beschreibt Hyperparameter-Optimierung, Option C ist Teil der Datenverwaltung und Option D bezieht sich auf Deployment-Prozesse.

Was passiert im MLOps-Lebenszyklus, wenn ein Drift erkannt wird?

A) Das Modell wird automatisch in der Registry archiviert
B) Das System führt automatisch ein Retraining durch
C) Das System benachrichtigt den Administrator per E-Mail
D) Das System setzt den Produktivbetrieb fort

Richtige Antwort: B. Bei erkanntem Drift führt das System gemäß dem gezeigten Architektur-Diagramm ein Retraining durch, um die Modellleistung wiederherzustellen. Option A ist kein automatischer Prozess, Option C ist nur ein Teil der Lösung und Option D wäre bei erkanntem Drift nicht korrekt.