职位描述
我们正在寻找一位专注于AWS、Databricks和Informatica IDMC的首席数据工程师,以设计、构建和维护一个强大、集成和受管的数据基础设施。您将支持数据驱动的决策,同时确保高质量、安全和合规的数据管理。
主要职责:
- 使用AWS服务(S3、RDS、Redshift、DynamoDB)和Databricks Delta Lake设计和架构数据存储解决方案(数据库、数据湖、数据仓库)。集成Informatica IDMC进行元数据管理和数据目录。
- 使用AWS(Glue、Data Pipeline、Lambda)、Databricks和Informatica IDMC开发、管理和优化数据管道以进行数据摄取、处理和转换。
- 从内部和外部来源集成和转换数据,同时确保数据的一致性、质量和治理。
- 使用Spark(Databricks)和Informatica IDMC构建ETL流程以清理、丰富和准备数据进行分析。
- 监控、优化和排除数据处理和查询的性能、可扩展性和成本效率问题。
- 实施数据安全最佳实践并遵守数据隐私法规。
- 使用AWS、Databricks Jobs和Informatica IDMC自动化常规的摄取、转换和监控工作流。
- 通过元数据管理维护基础设施、管道和配置的清晰文档。
- 与跨职能团队(数据科学家、分析师、软件工程师)合作,提供可靠的数据解决方案。
- 及时了解AWS、Databricks、Informatica IDMC和数据工程的最佳实践。
要求:
- 计算机科学、数据工程或相关领域的学士或硕士学位。
- 至少10年的数据工程经验,包括AWS、Databricks和Informatica IDMC。
- 精通Python、Java或Scala以构建数据管道。
- 熟悉SQL和NoSQL数据库;数据建模和模式设计。
- 具有ETL/ELT流程、数据集成和性能优化经验。
- 较强的分析、问题解决和沟通能力。
- 拥有AWS、Databricks和/或Informatica认证者优先。
优先技能:
- 在Databricks上有PySpark经验
- 了解数据治理和目录工具,特别是Informatica IDMC
- 熟悉Tableau或其他数据可视化工具
- 具有容器化(Docker)和编排(Kubernetes)经验
- 理解数据管道中CI/CD的DevOps原则
- 具有Git或其他版本控制系统的经验