概述
高级数据工程师将领导可扩展的云端和本地数据基础设施的设计、开发、自动化和优化,以支持企业应用程序、高级分析和AI/ML工作负载。在敏捷环境中工作,此角色需要与软件工程、基础设施和数据科学团队密切合作,以交付符合企业标准的安全、可靠和高性能的数据系统。
职责
• 使用Databricks、Delta Lake、Python、SQL和相关数据工程技术设计、构建和优化可扩展的ETL/ELT管道。
• 展示在PySpark和Databricks Lakehouse架构方面的专家级熟练度,包括模式演变、ACID事务、数据质量执行以及大规模复杂数据集的成本和性能优化处理。
• 通过实施基于Lakehouse的青铜/白银/黄金架构、通过优化技术减少处理时间、执行Great Expectations等数据质量框架以及增强存储和检索模式来提高数据生态系统效率。
• 与跨职能团队合作——数据科学家、工程师、产品负责人和业务利益相关者——将业务需求转化为支持AI/ML启用、特征工程、实时分析和生产级数据工作流的强大技术设计。
• 通过自动化、版本控制、测试框架以及数据管道和平台组件的可扩展部署模式来加强CI/CD和数据治理实践。
资格
在Azure、Snowflake、Delta Lake、Databricks和CI/CD自动化方面有强大的背景,带来了跨云、治理导向和自动化驱动的工程方法,这是组织集成企业级数据架构所需的。
前三项技能:
• Azure
• Snowflake、Delta Lake和Databricks的数据知识
• CI/CD