【架构实战】数据湖架构设计与实践

张开发

• 2026/5/26 2:21:12 • 15 分钟阅读

分享文章

一、为什么需要数据湖传统数据仓库的局限性- 结构化数据为主难以处理非结构化数据- Schema固定难以适应业务变化- 数据预处理后丢失细节- 存储成本高数据湖的特点- 存储各种类型数据结构化、半结构化、非结构化- Schema-on-Read读时模式- 保留原始数据可重复计算- 降低数据存储成本## 二、数据湖架构### 1. 核心组件数据源├── 日志系统Kafka├── 业务数据库MySQL/PostgreSQL├── 埋点数据App/Web├── 外部API└── 文件上传S3/HDFS ↓数据采集层├── Flume日志├── DebeziumCDC├── Sqoop批量└── Kafka Connect ↓数据存储层├── 对象存储MinIO/S3/HDFS├── Delta Lake/Iceberg/Hudi└── 数据目录Apache Atlas ↓数据处理层├── Spark├── Flink└── Presto/Trino ↓数据应用层├── BI报表├── 数据科学└── ML平台### 2. 技术选型对比| 组件 | 选项 | 推荐 ||------|------|------|| 存储 | HDFS/S3/MinIO | S3云/MinIO私有 || 格式 | Parquet/ORC/Avro | Parquet || 表格式 | Delta/Iceberg/Hudi | Delta Lake || 查询引擎 | Presto/Trino/Spark | Trino || 元数据 | Hive Metastore/Glue | Hive Metastore |## 三、Delta Lake实战### 1. Delta Lake简介Delta Lake是Databricks开源的存储层提供- ACID事务- 可扩展元数据处理- 时间旅行Time Travel- 模式强制和演化- 流批一体### 2. Spark Delta Lake依赖配置xmldependency groupIdio.delta/groupId artifactIddelta-core_2.12/artifactId version2.4.0/version/dependency写入数据pythonfrom delta.tables import DeltaTablefrom pyspark.sql import SparkSessionspark SparkSession.builder \ .appName(DataLakeDemo) \ .config(spark.sql.extensions, io.delta.sql.DeltaSparkSessionExtension) \ .config(spark.sql.catalog.spark_catalog, org.apache.spark.sql.delta.catalog.DeltaCatalog) \ .getOrCreate()# 批量写入df spark.read.format(json).load(/data/events/*.json)df.write \ .format(delta) \ .mode(overwrite) \ .partitionBy(date, event_type) \ .option(mergeSchema, true) \ .save(/delta/events)流式写入python# Kafka - Delta Lakestreaming_df spark.readStream \ .format(kafka) \ .option(kafka.bootstrap.servers, localhost:9092) \ .option(subscribe, events) \ .load()query streaming_df.selectExpr(CAST(key AS STRING), CAST(value AS STRING)) \ .writeStream \ .format(delta) \ .option(checkpointLocation, /delta/events/_checkpoints) \ .outputMode(append) \ .start(/delta/events)读取数据python# 读取最新数据df spark.read.format(delta).load(/delta/events)# 时间旅行 - 读取历史版本df_v1 spark.read \ .format(delta) \ .option(versionAsOf, 1) \ .load(/delta/events)# 时间旅行 - 读取指定时间点df_before spark.read \ .format(delta) \ .option(timestampAsOf, 2024-01-01T00:00:00) \ .load(/delta/events)增量读取python# 获取增量数据deltaTable DeltaTable.forPath(spark, /delta/events)# 只读取新数据newDF deltaTable.toDF().filter(col(date) 2024-01-15)### 3. UPSERT操作pythonfrom delta.tables import DeltaTable# Merge操作UPSERTdeltaTable DeltaTable.forPath(spark, /delta/users)deltaTable.alias(old).merge( updatesDF.alias(new), old.user_id new.user_id).whenMatchedUpdateAll().whenNotMatchedInsertAll().execute()### 4. 数据优化python# VACUUM - 删除不需要的文件保留7天deltaTable.vacuum(retentionHours 168)# OPTIMIZE - 优化小文件deltaTable.optimize().where(date 2024-01-15).zOrderBy(user_id).execute()## 四、Hudi实战### 1. Hudi简介HudiHadoop Upsert Delete and Incremental特点- 支持UPSERT/DELETE- 增量拉取- 多种表类型Copy on Write / Merge on Read### 2. Spark Hudipythonfrom pyspark.sql import SparkSessionspark SparkSession.builder \ .appName(HudiDemo) \ .config(spark.serializer, org.apache.spark.serializer.KryoSerializer) \ .config(spark.sql.extensions, org.apache.spark.sql.hudi.HoodieSparkSessionExtension) \ .getOrCreate()# 写入数据hoodie_options { hoodie.table.name: events, hoodie.datasource.write.recordkey.field: id, hoodie.datasource.write.partitionpath.field: date, hoodie.datasource.write.table.type: COPY_ON_WRITE, hoodie.datasource.write.operation: bulk_insert, hoodie.datasource.write.precombine.field: ts, hoodie.upsert.shuffle.parallelism: 200, hoodie.insert.shuffle.parallelism: 200}df.write \ .format(hudi) \ .options(**hoodie_options) \ .mode(append) \ .save(hdfs://namenode:8020/hudi/events)### 3. 增量拉取python# 增量拉取spark.read \ .format(hudi) \ .load(hdfs://namenode:8020/hudi/events) \ .createOrReplaceTempView(hudi_events_snapshot)# 获取指定时间点后的数据incremental_df spark.sql( SELECT * FROM hudi_events_snapshot WHERE hoodie_commit_time 20240115120000)## 五、数据湖最佳实践### 1. 表设计sql-- 使用分区表CREATE TABLE events ( id BIGINT, user_id BIGINT, event_type STRING, properties STRING, event_time TIMESTAMP)USING deltaPARTITIONED BY (date STRING, event_type STRING)LOCATION /delta/events-- 配置Z-Order优化OPTIMIZE eventsWHERE date 2024-01-15ZORDER BY (user_id, event_time)### 2. 数据治理python# 数据质量检查from great_expectations import GreatExpectationscontext GreatExpectations()checkpoint context.get_checkpoint(events_quality)results checkpoint.run( batch_request{ datasource_name: my_datasource, data_asset_name: events, })if not results[success]: # 发送告警 send_alert(results[failed_expectations])### 3. 权限控制sql-- 基于列的权限控制GRANT SELECT(event_time, event_type) ON events TO analyst_role;GRANT SELECT ON events TO data_scientist_role;-- 基于行的权限控制CREATE TABLE events_filtered ASSELECT * FROM eventsWHERE CASE WHEN current_user() admin THEN true ELSE date 2024-01-01END## 六、总结数据湖是现代数据平台的核心-Lakehouse结合数据湖和数据仓库优点-Delta Lake成熟的表格式支持ACID-Hudi适合CDC场景支持增量处理-最佳实践分区、Z-Order、数据质量**实施建议**1. 评估数据量和业务需求2. 选择合适的表格式3. 设计合理的分区策略4. 建立数据质量监控—个人观点仅供参考

更多文章

前端开发 2026/5/20 9:43:39

打破生态壁垒：如何用Home Assistant统一管理小米智能家居？

打破生态壁垒：如何用Home Assistant统一管理小米智能家居？ 【免费下载链接】ha_xiaomi_home Xiaomi Home Integration for Home Assistant 项目地址: https://gitcode.com/GitHub_Trending/ha/ha_xiaomi_home 你是否曾为家中小米智能设备无法与其…

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 于学术写作跟科研发表进程里，重复率过高属于常见状况。降重网站当作辅助工具&…

张开发

前端开发 2026/5/25 0:12:07

Obsidian图片本地化终极指南：让你的笔记图片永不失效

Obsidian图片本地化终极指南：让你的笔记图片永不失效【免费下载链接】obsidian-local-images-plus This repo is a reincarnation of obsidian-local-images plugin which main aim was downloading images in md notes to local storage. 项目地址: https://git…

张开发

【架构实战】数据湖架构设计与实践

最新文章

FPGA异步FIFO读写位宽转换实战：从8bit到32bit的数据拼接与拆分（Vivado+Modelsim）

从图像模糊到语音识别：卷积在AI中的实战应用与Python代码示例

车载OTA升级中Docker层缓存失效导致回滚失败？3步构建可复现、可签名、可审计的分层镜像流水线（含Sigstore+Notary v2集成）

盛合晶微科创板上市，开盘市值近1858亿，无锡国资投资回报率超600%

如何用AI大模型技术一键批量生成和发布短视频？MoneyPrinterPlus全攻略

一张“网”如何拯救生命？浅谈医疗系统集成平台iPaaS

推荐文章

相关文章

分享文章

更多文章

打破生态壁垒：如何用Home Assistant统一管理小米智能家居？

从 ReAct 到 Workflow：基于云端 API 构建事件驱动的智能体

OpenClaw与Python：构建高效自动化脚本，赋能复杂工作场景落地

BiliTools：2026年最强大的免费哔哩哔哩资源管理工具终极指南

GitHub Desktop中文汉化终极指南：3分钟让官方客户端变身中文界面

告别掉电丢失！深入浅出聊聊ZYNQ7020的启动流程：FSBL、BOOT.BIN与QSPI Flash那点事

如何让JSON数据在前端项目中优雅可视化和交互？

AI深度学习/PyTorch/神经网络相关

保姆级教程：用ESP-IDF Nimble和Bluedroid分别设置BLE广播名（附ESP32-C3/S3实测代码）

gInk：重新定义屏幕标注体验的极简效率工具

2025届必备的降AI率平台实际效果

Obsidian图片本地化终极指南：让你的笔记图片永不失效