Delta湖:明确指南

书籍描述

分析和机器学习模型仅与所建立的数据一样好。查询已处理的数据并从其识别下面需要强大的数据流水线 - 以及确保数据质量,数据完整性和性能的有效存储解决方案。

本指南介绍了Delta Lake,这是一种开源格式,可以在现有的存储系统之上构建湖泊架构,如S3,ADL,GCS和HDFS。Delta Lake增强了Apache Spark,通过支持数据完整性,数据质量和性能,可以轻松地存储和管理大量复杂数据。数据工程师,数据科学家和数据从业者将学习如何使用Delta Lake以规模构建可靠的数据湖泊和数据管道。

  • 了解关键数据可靠性挑战以及如何解决它们
  • 了解如何使用Delta Lake实现数据可靠性改进
  • 同时运行对数据湖的流和批处理作业
  • 对数据湖执行更新,删除和合并命令
  • 使用时间旅行回滚并检查以前版本的数据
  • 学习最佳实践,为现实世界用例构建有效,高质量的端到端数据管道
  • 与Presto,Athena,Redshift和其他BI工具等其他数据技术集成

了解数千家公司每月处理湖泊馆建筑用三角洲湖泊的数据处理exabytes。

出版商资源

查看/提交勘误表

产品信息

  • 标题:Delta湖:明确指南
  • 作者:Denny Lee,Tathagata Das,Vini Jaiswal
  • 发布日期:4月2022年4月
  • 出版商:O'Reilly Media,Inc。
  • ISBN:9781098104528