Table des matières:
Définition - Que signifie Dirty Data?
Les données sales font référence aux données qui contiennent des informations erronées. Il peut également être utilisé pour faire référence à des données en mémoire et non encore chargées dans une base de données. La suppression complète des données sales d'une source est impossible ou pratiquement impossible.
Les données suivantes peuvent être considérées comme des données sales:
- Données trompeuses
- Données en double
- Données incorrectes
- Données inexactes
- Données non intégrées
- Données qui enfreignent les règles métier
- Données sans formatage généralisé
- Données mal ponctuées ou orthographiées
Techopedia explique Dirty Data
Outre une saisie incorrecte des données, des données incorrectes peuvent être générées en raison de méthodes inappropriées dans la gestion et le stockage des données. Certains types de données sales sont expliqués ci-dessous:
- Données incorrectes - Pour garantir que les données sont valides ou correctes, la valeur entrée doit être conforme aux valeurs valides du champ. Par exemple, la valeur entrée dans le champ mois doit être comprise entre 1 et 12, ou l'âge d'un individu doit être inférieur à 130. La correction de la valeur des données peut être appliquée par programme au moyen de tables de recherche ou avec des vérifications d'édition.
- Données inexactes - Il est possible qu'une valeur de données soit correcte, mais pas précise. Parfois, il est pratique d'examiner par rapport à d'autres fichiers ou champs pour savoir si la valeur des données est exacte en fonction du contexte dans lequel elles sont utilisées. Pourtant, la précision ne peut souvent être validée que par une vérification manuelle.
- Violations des règles métier - Les données qui violent la règle métier sont un autre type de données sales. Par exemple, une date effective doit toujours précéder une date d'expiration. Un autre exemple de violation des règles commerciales peut être la réclamation d'assurance-maladie d'un patient où le patient peut être encore en dessous de l'âge de la retraite et ne pas avoir droit à l'assurance-maladie.
- Données incohérentes - La redondance des données non vérifiée entraîne des incohérences de données. Chaque organisation est affectée par des données incohérentes et répétitives. Cela est particulièrement typique avec les données client.
- Données incomplètes - Les données avec des valeurs manquantes sont le principal type de données incomplètes.
- Données en double - Des données en double peuvent se produire en raison de soumissions répétées, d'une mauvaise jointure de données ou d'une erreur de l'utilisateur.
Afin d'augmenter la qualité des données et d'éviter les données erronées, les organisations devraient incorporer des méthodologies pour garantir l'exhaustivité, la validité, la cohérence et l'exactitude des données.












