Découverte de données et catalogue de données

La découverte de données est devenue si populaire que les entreprises investissent dans des stocks de données et des plateformes d’insight. L’IA et l’apprentissage automatique sont utilisés pour aider les organisations à passer de la simple invention de données à la conservation de ces données, révélant ainsi des ensembles de données dignes de confiance et prêts pour le gouvernement. Les plateformes de découverte de données cataloguent, facilitent et stockent des données provenant de diverses sources, notamment des bases de données, des sites Web et des médias sociaux. Sources : 10,17,20]

Les glossaires commerciaux qui permettent d’identifier les définitions de données valides dans un contexte commercial peuvent être intégrés aux catalogues de données qui fournissent davantage d’informations sur les schémas, les structures et le stockage physique des données, entre autres. La plupart des catalogues de données contiennent également des outils permettant de définir des dictionnaires de données et d’exécuter d’autres fonctions de gestion des données, comme les données de profil et les outils de profil. Sources : 19,17]

Découvrez nos solutions sans obligation d’achat

Les responsables des technologies de l’information ont accès à une liste croissante de vendeurs de catalogues de données, et peuvent également choisir parmi une variété d’outils de gestion des données spécifiques aux entreprises. Il existe des catalogues de données autonomes orientés vers les conditions de l’entreprise, tels que la base de données d’entreprise (BDD) et le système de gestion de base de données d’entreprise (SGBD). De même, les responsables des technologies de données d’entreprise peuvent utiliser le catalogue de données en nuage en plus de la BDD, même si leurs interfaces utilisateur ne prennent pas en charge les termes de recherche. La découverte de données peut être réalisée en permettant aux utilisateurs de rechercher le catalogue de données à l’aide de mots-clés et de paramètres existants. Sources : 18,7,12,2]

Le catalogue de données est connecté à une plateforme comme Redshift ou Amazon EMR, qui peut accéder aux ensembles de données du catalogue pour créer des analyses de données qui peuvent être insérées dans des outils de BI et des rapports. Les CDO peuvent distribuer à grande échelle des balises pour les attributs définis dans les glossaires d’entreprise, améliorer les métadonnées actives générées pour la découverte et l’analyse continues, puis utiliser les bases de données BigID pour améliorer les politiques de gouvernance des données pour les enregistrements d’entreprise. Les équipes s’appuient largement sur les données distribuées internes et externes pour compléter le ML avec des données et créer un inventaire de données. Sources : 18,13,2]

La découverte de données nécessite la compréhension des relations entre les données et la modélisation des données, ainsi que l’utilisation de capacités analytiques avancées guidées par les idées révélées. Un catalogue de données fournit des métadonnées qui décrivent exactement quelles données sont stockées à partir de quelles sources de données et dans quels magasins. Les catalogues de données permettent de localiser facilement la source de données et offrent une compréhension claire de l’ensemble des données, ce qui facilite l’accès aux données pour la découverte et l’analyse des données. L’avantage d’un catalogue de données bien organisé est qu’il fournit un aperçu en étiquetant les données comme étant faciles à trouver. [Sources : 0,11,1,5]

Les utilisateurs peuvent rechercher dans un catalogue de données les données dont ils ont besoin et comprendre leur origine, et ainsi comprendre et utiliser leurs données comme un atout. Les catalogues de données apportent de la clarté et les utilisateurs peuvent les organiser, les gérer et les classer afin de comprendre leur origine et d’accéder aux données dans le bon ordre. Les données et les métadonnées associées, telles que les données sources, les sources de données et le stockage, sont triées et indexées dans les catalogues de données. [Sources : 6,4,12]

En fournissant un accès facile aux catalogues de données d’entreprise pour les développeurs et les utilisateurs, on élimine la nécessité de créer un pipeline de données qui puise des données dans plusieurs sources et on contribue à garantir un accès cohérent aux données fiables. En outre, l’unité du catalogue de données évolue, et les perspectives et résultats que les équipes chargées des données peuvent en tirer sont enrichis et améliorés par la possibilité de conserver et de gérer les données dans un emplacement central. Grâce aux catalogues de données, vous pouvez présenter les données de votre entreprise dans leur contexte, afin de trouver ce dont vous avez besoin et de comprendre quelles autres données commerciales sont utilisées. Sources : 18,17,14]

En combinant les métadonnées avec des capacités de gestion, de gouvernance et de recherche de données, les catalogues de données aident les entreprises à organiser leurs données, à trouver les bons ensembles de données et à évaluer les actifs qui conviennent à des cas d’utilisation spécifiques. En enregistrant les données dans un catalogue de données, les entreprises peuvent s’assurer que les données sont disponibles pour les unités commerciales concernées. Tout comme une bibliothèque dispose d’un catalogue de livres, une organisation possédant des milliers d’ensembles de données peut gagner en rapidité et en efficacité en utilisant un catalogue de données. Un catalogue de données central qui gère les métadonnées, les enregistrements et les lacs de données est un élément clé pour permettre la collecte, l’analyse, la gestion et la gestion des données et des actifs de l’entreprise. [Sources : 21,8,4,18]

Le catalogue de données de nouvelle génération accélère le temps de passage de l’insight à l’insight en aidant les équipes de données à découvrir, étiqueter et collaborer sur la plupart des données. Sources : 2]

En organisant les données provenant de sources multiples dans une plateforme centralisée et interrogeable, les outils de catalogue de données permettent aux équipes de données et aux autres consommateurs de données de trouver, comprendre et utiliser les données plus rapidement et plus efficacement. Le catalogue de données Azure facilite la compréhension de l’utilisation de toutes les sources de données, de la source à l’utilisateur. Les catalogues de données enrichissent ce processus en offrant la possibilité de présenter en détail des informations essentielles sur les stocks de données, ce qui fournit un plan directeur pour la gestion des données. Ceci est crucial pour garantir que les utilisateurs de données puissent découvrir et accéder aux données de la manière la plus efficace possible. [Sources : 3,9,9,18]

La possibilité de recherche est l’une des caractéristiques et des capacités des catalogues de données, les transformant en dispositifs de libre-service, permettant la démocratisation de toutes les données au sein d’une organisation. L’objectif d’un catalogue de données est de permettre aux citoyens de répondre à leurs besoins et d’accéder aux données dont ils ont besoin de la manière la plus efficace possible. En fournissant aux consommateurs un accès facile aux données et aux données dont ils ont besoin pour leur travail, les catalogues de données permettent à la fois la découverte et l’exploration des données. Sources : 18,16,15]

Sources :

  • [0] : https://bi-survey.com/data-discovery
  • 1] : https://www.sisense.com/glossary/data-cataloging/
  • 2] : https://softcrylic.com/blogs/data-catalogs-in-data-governance/
  • [3] : https://analyticsweek.com/content/reinforcing-data-governance-with-data-discovery/
  • [4] : https://atlan.com/what-is-a-data-catalog/
  • [5] : https://www.red-gate.com/hub/product-learning/sql-data-catalog/data-catalog-comes-age
  • [6] : https://www.infogix.com/why-you-need-a-data-catalog/
  • [7] : https://engineering.mercari.com/en/blog/entry/20201207-toward-better-data-management-on-bigquery-with-dbt/
  • [8] : https://aws.amazon.com/blogs/big-data/aws-serverless-data-analytics-pipeline-reference-architecture/
  • [9] : https://www.mssqltips.com/sqlservertip/5925/azure-data-catalog-tutorial-and-overview–part-1/
  • [10] : https://datastrategy.substack.com/p/in-house-data-discovery-platforms
  • [11] : https://www.talend.com/resources/what-is-data-catalog/
  • [12] : https://searchdatamanagement.techtarget.com/feature/Why-consider-an-open-source-data-catalog
  • [13] : https://bigid.com/blog/data-discovery-meets-data-catalogs/
  • [14] : https://www.dbta.com/Columns/DBA-Corner/The-Rise-of-the-Data-Catalog-135766.aspx
  • [15] : https://www.alation.com/modern-data-catalog-features/
  • [16] : https://www.ibm.com/cloud/learn/data-catalog
  • [17] : https://tdwi.org/articles/2020/09/28/bi-all-data-catalogs-expand-discovery-improve-governance.aspx
  • [18] : https://www.immuta.com/articles/what-is-data-catalog/
  • [19] : https://www.infoworld.com/article/3512828/why-data-driven-businesses-need-a-data-catalog.html
  • [20] : https://eugeneyan.com/writing/data-discovery-platforms/
  • [21] : https://cloud.netapp.com/blog/azure-anf-blg-azure-data-catalog-understanding-concepts-and-use-cases