账单数据摄取工程师
该工程师构建基础数据模型,将所有云服务提供商的原始账单数据摄取并规范化到数据平台中。
- 4-6 年数据工程经验
- 该职位需要对 ETL/ELT 模式、处理模式演变以及大规模构建稳健管道有深入的专业知识。云账单数据的复杂性(数十亿行、延迟到达的数据、提供商模式变化)需要一个曾经解决过这些问题的人。
关键交付成果
1. 源系统连接器:为 AWS CUR(S3)、GCP 账单导出(BigQuery)和 Azure 成本管理导出(Blob 存储)构建摄取管道
2. 暂存数据模型:创建暂存表,以适当的分区和聚类方式保留原始账单数据
3. 规范化基础模型:设计并实施统一模式,规范化所有三个提供商的账单数据
4. 数据质量框架:实施数据质量测试、新鲜度检查和对账模型
5. 模式演变处理:构建检测并适应提供商模式变化的流程
工程职责
- 设计增量摄取逻辑,处理每日/月账单更新
- 实施延迟到达数据处理(账单调整、抵扣)
- 构建对账模型,比较处理后的总额与提供商发票
- 为下游消费者创建数据合同和文档
- 优化大规模账单数据集的模型性能(分区、聚类)
- 为数据模型部署和测试实施 CI/CD
所需技术技能
- 精通 SQL 和数据建模(dbt、Dataform 或类似工具)
- 具备数据仓库平台经验(Snowflake、BigQuery、Redshift、Databricks)
- 使用 Python 进行数据管道脚本编写和自动化
- 理解云账单导出格式(CUR、BigQuery 导出、Azure 导出)
- 数据质量测试框架(dbt 测试、Great Expectations)