June 14, 2024

PDFS

C'est en forgeant qu'on devient forgeron

Le concept Lakehouse vise à fusionner le lac de données et l’entrepôt de données

5 min read

Le data lakehouse – ce n’est pas une retraite d’été pour les administrateurs de bases de données (DBA) ou les data scientists surchargés de travail, c’est un concept qui essaie de combler le fossé entre le entrepôt de données et le lac de données.

En d’autres termes, le data lakehouse vise à allier la flexibilité et le coût relativement faible du data lake à la facilité d’accès et à la prise en charge des capacités d’analyse d’entreprise que l’on trouve dans les entrepôts de données.

Dans cet article, nous examinerons les caractéristiques du data lakehouse et donner quelques conseils aux fournisseurs qui le mettent à disposition.

Limitations du lac et soucis d’entrepôt

Récapitulons les principales fonctionnalités du lac de données et de l’entrepôt de données pour indiquer clairement où s’intègre l’idée du lac de données.

Les lacs de données sont conçus comme l’emplacement le plus en amont pour gestion des données d’entreprise. C’est là où toutes les données de l’organisation circulent et où elles peuvent vivre dans un format plus ou moins brut, allant de non structuré vers des fichiers image et PDF structurés vers des bases de données, via XML, JSON, etc. Il pourrait y avoir une fonctionnalité de type recherche peut-être via des métadonnées et une analyse ad hoc pourrait être effectuée par des scientifiques des données.

Les capacités de traitement ne sont pas susceptibles d’être critiques ou optimisées pour des flux de travail particuliers, et il en va de même pour le stockage.

Les entrepôts de données, en revanche, sont à l’opposé des choses. Ici, des ensembles de données – éventuellement après des phases exploratoires de travail dans le lac de données – sont mis à disposition pour des analyses plus régulières et de routine.

L’entrepôt de données met les données dans un format plus emballé et traité. Il aura été exploré, évalué, disputé et présenté pour un accès rapide et régulier, et est presque invariablement données structurées.

Pendant ce temps, le calcul et le stockage dans l’architecture de l’entrepôt de données seront optimisés pour les types d’accès et de traitement requis.

De l’autre côté du lac jusqu’à la maison du lac

Le data lakehouse tente de combler le fossé entre le data lake et l’entrepôt de données. Entre la grande masse amorphe du lac avec sa myriade de formats et son manque d’utilisation au quotidien, et l’entrepôt de données étroit, très structuré et relativement coûteux.

Fondamentalement, l’idée de data lakehouse voit l’introduction d’un support pour ACIDE (atomicité, cohérence, isolation et durabilité) – processus transactionnels avec la possibilité pour plusieurs parties de lire et d’écrire simultanément des données. Il devrait également y avoir un moyen d’appliquer les schémas et d’assurer la gouvernance avec des façons de raisonner sur l’intégrité des données.

Mais l’idée du data lakehouse est aussi en partie une réponse à l’essor des données non structurées (ou semi-structurées) qui pourraient se présenter sous divers formats, y compris ceux qui pourraient potentiellement être analysés par l’intelligence artificielle (IA) et l’apprentissage automatique (ML ) des outils, tels que du texte, des images, de la vidéo et de l’audio.

Cela signifie également la prise en charge de divers types de charges de travail. Là où l’entrepôt de données signifie invariablement l’utilisation de bases de données, le lac de données peut être le site de la science des données, de l’IA/ML, du SQL et d’autres formes d’analyse.

Un avantage clé est qu’une grande variété de données peut être consultée plus rapidement et plus facilement avec une plus grande variété d’outils – tels que Python, R et l’apprentissage automatique – et intégrés aux applications d’entreprise.

Où explorer le data lakehouse

Un pionnier dans l’idée de ce lac de données est Databricks, qui a gagné 1 milliard de dollars de financement plus tôt cette année. Databricks est un contributeur au lac de données cloud open source Delta Lake. Les analystes ont vu un cycle de financement aussi important que la confiance des investisseurs dans une approche qui vise à faciliter l’accès des entreprises à des ensembles de données volumineux et variés.

Pendant ce temps, Databricks est disponible sur Amazon Web Services (AWS), tandis que le géant du cloud positionne également son produit d’entrepôt de données Redshift comme une architecture de lac, avec la possibilité d’interroger des sources de données structurées (bases de données relationnelles) et non structurées (S3, Redshift). L’essence ici est que les applications peuvent interroger n’importe quelle source de données sans la préparation requise de l’entreposage de données.

Microsoft Azure dispose d’Azure Databricks, qui utilise le moteur Delta Lake et Spark avec la prise en charge de l’interface de programmation d’applications (API) pour SQL, Python, R et Scala, ainsi que des bibliothèques de calcul et d’apprentissage machine Azure optimisées.

Databricks et Google ont également annoncé la disponibilité sur Google Cloud Platform plus tôt cette année et l’intégration avec BigQuery de Google et Google Cloud AI Platform.

Snowflake est un autre fournisseur du jeu Lakehouse, qui prétend être à l’origine du terme et vante sa capacité à fournir une plate-forme de données et d’analyse pour l’entreposage de données et des scénarios moins structurés.

Leave a Reply

Your email address will not be published. Required fields are marked *