Qu’est-ce que les métadonnées et comment ça marche ?
10 min readSouvent appelées données décrivant d’autres données, les métadonnées sont des données de référence structurées qui aident à trier et à identifier les attributs des informations qu’elles décrivent. Dans Zen et l’art de la maintenance des métadonnées, John W. Warren décrit les métadonnées comme « à la fois un univers et un ADN ».
Méta est un préfixe qui, dans la plupart des usages des technologies de l’information, signifie “une définition ou une description sous-jacente”. Les métadonnées résument les informations de base sur les données, ce qui peut faciliter la recherche, l’utilisation et la réutilisation d’instances particulières de données.
Par exemple, l’auteur, la date de création, la date de modification et la taille du fichier sont des exemples de métadonnées de fichier de document très basiques. Avoir la possibilité de rechercher un élément (ou des éléments) particulier de ces métadonnées permet à quelqu’un de localiser beaucoup plus facilement un document spécifique.
En plus des fichiers de documents, les métadonnées sont utilisées pour :
- fichiers informatiques
- images
- bases de données relationnelles
- feuilles de calcul
- vidéos
- fichiers audio
- les pages Web
L’utilisation de métadonnées sur les pages Web peut être très importante. Les métadonnées contiennent des descriptions du contenu de la page, ainsi que des mots-clés liés au contenu. Ces métadonnées sont souvent affichées dans les résultats de recherche par les moteurs de recherche, ce qui signifie que leur exactitude et leurs détails peuvent influencer la décision d’un utilisateur de visiter ou non un site. Ces informations sont généralement exprimées sous forme de balises méta.
Les moteurs de recherche évaluent les balises META pour aider à déterminer la pertinence d’une page Web. Les balises méta ont été utilisées comme facteur clé pour déterminer la position dans une recherche jusqu’à la fin des années 1990. L’augmentation de l’optimisation des moteurs de recherche (Référencement) vers la fin des années 90 a conduit de nombreux sites Web à Remplissage de mot-clé leurs métadonnées pour tromper les moteurs de recherche, rendant leurs sites Web plus pertinents que les autres.
Depuis lors, les moteurs de recherche ont réduit leur dépendance aux balises META, bien qu’elles soient toujours prises en compte lors de l’indexation des pages. Beaucoup moteurs de recherche essayez également de contrecarrer la capacité des pages Web à tromper leur système en modifiant régulièrement leurs critères de classement, Google étant connu pour modifier fréquemment son classement. algorithmes.
Les métadonnées peuvent être créées manuellement ou par traitement automatisé de l’information. La création manuelle a tendance à être plus précise, permettant à l’utilisateur de saisir toute information qu’il juge pertinente ou qui aiderait à décrire le fichier. La création automatisée de métadonnées peut être beaucoup plus élémentaire, n’affichant généralement que des informations telles que la taille du fichier, l’extension du fichier, la date de création du fichier et son auteur.
Cas d’utilisation des métadonnées
Les métadonnées sont créées chaque fois qu’un document, un fichier ou un autre élément d’information est modifié, y compris sa suppression. Des métadonnées précises peuvent être utiles pour prolonger la durée de vie des données existantes en aidant les utilisateurs à trouver de nouvelles façons de les appliquer.
Les métadonnées organisent un Les données objet en utilisant des termes associés à cet objet particulier. Il permet également d’identifier des objets dissemblables et de les associer à des objets similaires pour aider à optimiser l’utilisation des actifs de données. Comme indiqué, les moteurs de recherche et les navigateurs déterminent le contenu Web à afficher en interprétant les balises de métadonnées associées à un HTML document.
Le langage des métadonnées est écrit pour être compréhensible à la fois par les systèmes informatiques et par les humains, un niveau de standardisation qui contribue à une meilleure interopérabilité et intégration entre des applications et des systèmes d’information disparates.
Les entreprises de l’édition numérique, de l’ingénierie, des services financiers, de la santé et de la fabrication utilisent des métadonnées pour recueillir des informations sur les moyens d’améliorer les produits ou de mettre à niveau les processus. Par exemple, les fournisseurs de contenu en streaming automatisent la gestion des propriété intellectuelle métadonnées afin qu’elles puissent être stockées dans un éventail d’applications, protégeant ainsi les détenteurs de droits d’auteur tout en rendant la musique et les vidéos accessibles aux utilisateurs authentifiés.
La maturité de IA technologies allège quelque peu le fardeau traditionnel de la gestion des métadonnées en automatisant les processus auparavant manuels pour cataloguer et baliser les actifs d’information.
Histoire et origines des métadonnées
Jack E. Myers, fondateur de Metadata Information Partners (maintenant The Metadata Co.), prétend avoir inventé le terme en 1969. Myers a déposé une marque pour le mot sans trait d’union « métadonnées » en 1986. Malgré cela, des références au terme apparaissent dans des articles universitaires antérieurs à la demande de Myers.
Dans un article académique publié en 1967, les professeurs David Griffel et Stuart McIntosh du Massachusetts Institute of Technology ont décrit les métadonnées comme « un enregistrement… des enregistrements de données » résultant de la collecte de données bibliographiques sur un sujet à partir de sources discrètes. Les chercheurs ont conclu qu’une “approche méta-linguistique” ou “métalangage” est nécessaire pour permettre à un système informatique d’interpréter correctement ces données et leur contexte par rapport à d’autres éléments de données pertinents. Contrairement à Myers, Griffel et McIntosh ont traité « méta » comme un préfixe de « données ».
En 1964, un étudiant de premier cycle en informatique nommé Philip R. Bagley a commencé à travailler sur sa thèse, dans laquelle il a fait valoir que les efforts pour « créer des éléments de données composites » reposent en fin de compte sur la capacité de « s’associer explicitement » à un deuxième élément de données associé, que “nous pourrions appeler un” élément de métadonnées “.” Bien que sa thèse ait été rejetée, le travail de Bagley, y compris sa référence aux métadonnées, a ensuite été publié sous forme de rapport dans le cadre d’un contrat avec le US Air Force Office of Scientific Research en janvier 1969.
Types de métadonnées et exemples
Les métadonnées sont classées de différentes manières en fonction de la fonction qu’elles remplissent dans la gestion de l’information.
- Métadonnées administratives permet aux administrateurs d’imposer des règles et des restrictions régissant l’accès aux données et les autorisations des utilisateurs. Il fournit également des informations sur la maintenance et la gestion requises des ressources de données. Souvent utilisées dans le contexte de la recherche en cours, les métadonnées administratives incluent des détails tels que la date de création, la taille et le type de fichier et les exigences d’archivage.
- Métadonnées descriptives identifie des caractéristiques spécifiques d’une donnée, telles que des données bibliographiques, mots clés, titres de chansons, numéros de volume, etc.
- Métadonnées légales fournit des informations sur les licences créatives, telles que les droits d’auteur, les licences et les redevances.
- Métadonnées de préservation guide le placement d’un élément de données dans un cadre ou une séquence hiérarchique.
- Métadonnées de processus décrit les procédures utilisées pour collecter et traiter les données statistiques. Les métadonnées statistiques sont un autre terme pour les métadonnées de processus.
- Métadonnées de provenance, aussi connu sous le nom lignage des données, suit l’historique d’une donnée au fur et à mesure qu’elle se déplace dans une organisation. Les documents originaux sont associés à des métadonnées pour garantir la validité des données ou pour corriger les erreurs de qualité des données. La vérification de la provenance est une pratique courante dans gouvernance des données.
- Métadonnées de référence concerne les informations qui décrivent la qualité du contenu statistique.
- Métadonnées statistiques décrit les données qui permettent aux utilisateurs d’interpréter et d’utiliser correctement les statistiques trouvées dans les rapports, les enquêtes et les recueils.
- Métadonnées structurelles révèle comment les différents éléments d’un objet de données composé sont assemblés. Les métadonnées structurelles sont souvent utilisées dans le contenu multimédia numérique, par exemple pour décrire comment les pages d’un livre audio doivent être organisées pour former un chapitre, et comment les chapitres doivent être organisés pour former des volumes, etc. Le terme « métadonnées techniques » est le synonyme le plus étroitement associé aux éléments des bibliothèques numériques.
- Utiliser les métadonnées sont des données qui sont triées et analysées chaque fois qu’un utilisateur y accède. Sur la base de l’analyse des métadonnées d’utilisation, les entreprises peuvent identifier les tendances du comportement des clients et adapter plus facilement leurs produits et services pour répondre à leurs besoins.
Comment utiliser efficacement les métadonnées
Le taux accéléré de croissance des données a suscité un nouvel intérêt pour la valeur commerciale potentielle qui peut être dérivée des métadonnées. Il existe une variété de structures de données qui présentent à la fois des opportunités et des défis.
Gestion des métadonnées fournit un cadre organisationnel pour harmoniser des ensembles de données discrets stockés dans divers systèmes. Il fournit également un consensus organisationnel pour décrire les informations, souvent divisées en données commerciales, opérationnelles et techniques.
Les entreprises mettent en œuvre une gestion des métadonnées pour récupérer les données plus anciennes et développer une taxonomie classer les données en fonction de leur valeur commerciale. Un de ses composants est un catalogue ou une base de données centrale qui sert de référentiel de métadonnées, également connu sous le nom de dictionnaire de données.
En plus de la classification des données, des stratégies de gestion des métadonnées sont utilisées pour améliorer Analyse des données, élaborer une politique de gouvernance des données et établir un piste de vérification pour la conformité réglementaire.
Fondamentalement, la gestion des métadonnées consiste à permettre aux utilisateurs d’identifier les attributs d’une donnée particulière à l’aide d’une interface utilisateur Web. L’attribut peut être le nom du fichier, son auteur, un numéro d’identification client, etc. La personne qui demande le document est ainsi en mesure de voir et de comprendre les différents attributs des données, le système d’entreprise dans lequel elles résident et les raisons pour lesquelles ces attributs ont été créés.
Depuis novembre 2020, Alation, ASG, Alex Solutions, Collibra, Erwin, IBM, Informatica, Oracle, SAP et SmartLogic sont classés parmi les principaux fournisseurs de plateformes de gestion de métadonnées par le cabinet d’analystes informatiques Gartner dans son Magic Quadrant pour les solutions de gestion des métadonnées.
Standardisation des métadonnées
Un certain nombre de normes industrielles ont été développées pour rendre les métadonnées plus utiles. Ces normes garantissent la cohérence de la langue, du format, de l’orthographe et d’autres attributs communs à utiliser pour décrire les données. Chaque norme est basée sur un schéma qui fournit une structure globale pour toutes ses métadonnées.
Dublin-Core est une norme générale largement utilisée, développée à l’origine pour faciliter l’indexation des catalogues de cartes de bibliothèque physiques. La norme a depuis été adaptée pour les métadonnées numériques basées sur le Web. Dublin Core décrit les attributs de 15 éléments de données de base : titre, créateur, sujet, description, éditeur, contributeurs, date, type, format, identifiant, source, langue, relation, couverture et gestion des droits.
Une norme de métadonnées bibliographiques similaire est Schéma de description des objets de métadonnées, un XML-Schéma basé sur les bibliothèques, créé par le Network and Standards Development Office de la Bibliothèque du Congrès des États-Unis en tant que successeur des normes de catalogue lisible par machine développées dans les années 1960.
Une nouvelle norme, schema.org, est basé sur une collaboration logicielle open source qui fournit une collection de schémas de métadonnées adaptés aux données Internet structurées, aux e-mails et à d’autres formes de données numériques.
Schéma de métadonnées spécifique à l’industrie
Un certain nombre de schémas de métadonnées standard ont été développés pour répondre aux exigences uniques de certaines disciplines et secteurs verticaux de l’industrie.
Arts et sciences humaines :
- Initiative de codage de texte est un consortium d’institutions développant des normes qui spécifient des méthodes d’encodage pour représenter du texte lisible par machine sous forme numérique.
- Noyau VRA, développé conjointement par la Library of Congress et la Visual Resources Association, est décrit comme « une norme de données pour la description des œuvres de la culture visuelle ainsi que des images qui les documentent ».
Culture et société :
Les sciences: