Heterogene Daten
Die Kombination von Daten verschiedener Typen (Text, Bild, Sensor) oder aus mehreren Domänen, was Integrations- und Governance-Herausforderungen mit sich bringt.
Definition
Multimodale Datensätze und Datensätze aus mehreren Quellen erfordern eine Harmonisierung von Formaten, Schemata und Qualitätskontrollen. Die Unternehmensleitung muss einheitliche Metadatenstandards definieren, eine konsistente Vorverarbeitung (Normalisierung, Kodierung) sicherstellen und die Herkunft über alle Pipelines hinweg verwalten. Die Beseitigung semantischer Inkongruenzen und Muster fehlender Werte ist entscheidend für die Wahrung der Datenintegrität und Fairness beim Training multimodaler KI-Systeme.
Real-World Example
Ein Projekt für autonome Fahrzeuge verbindet LIDAR-Punktwolken, Kamerabilder und GPS-Streams. Ein Data-Governance-Team erstellt eine multimodale Schemaregistrierung, setzt Regeln für die Zeitstempelsynchronisierung durch und verfolgt die Herkunft, sodass alle Erkennungsfehler auf die genaue Version der Sensordaten und die Vorverarbeitungsschritte zurückgeführt werden können.