首席数据工程师

新加坡 2天前合同 网络
4.1万 - 4.9万 / 月
职位描述 我们正在寻找一位专注于AWS、Databricks和Informatica IDMC的首席数据工程师,以设计、构建和维护一个强大、集成和受管的数据基础设施。您将支持数据驱动的决策,同时确保高质量、安全和合规的数据管理。 主要职责: - 使用AWS服务(S3、RDS、Redshift、DynamoDB)和Databricks Delta Lake设计和架构数据存储解决方案(数据库、数据湖、数据仓库)。集成Informatica IDMC进行元数据管理和数据目录。 - 使用AWS(Glue、Data Pipeline、Lambda)、Databricks和Informatica IDMC开发、管理和优化数据管道以进行数据摄取、处理和转换。 - 从内部和外部来源集成和转换数据,同时确保数据的一致性、质量和治理。 - 使用Spark(Databricks)和Informatica IDMC构建ETL流程以清理、丰富和准备数据进行分析。 - 监控、优化和排除数据处理和查询的性能、可扩展性和成本效率问题。 - 实施数据安全最佳实践并遵守数据隐私法规。 - 使用AWS、Databricks Jobs和Informatica IDMC自动化常规的摄取、转换和监控工作流。 - 通过元数据管理维护基础设施、管道和配置的清晰文档。 - 与跨职能团队(数据科学家、分析师、软件工程师)合作,提供可靠的数据解决方案。 - 及时了解AWS、Databricks、Informatica IDMC和数据工程的最佳实践。 要求: - 计算机科学、数据工程或相关领域的学士或硕士学位。 - 至少10年的数据工程经验,包括AWS、Databricks和Informatica IDMC。 - 精通Python、Java或Scala以构建数据管道。 - 熟悉SQL和NoSQL数据库;数据建模和模式设计。 - 具有ETL/ELT流程、数据集成和性能优化经验。 - 较强的分析、问题解决和沟通能力。 - 拥有AWS、Databricks和/或Informatica认证者优先。 优先技能: - 在Databricks上有PySpark经验 - 了解数据治理和目录工具,特别是Informatica IDMC - 熟悉Tableau或其他数据可视化工具 - 具有容器化(Docker)和编排(Kubernetes)经验 - 理解数据管道中CI/CD的DevOps原则 - 具有Git或其他版本控制系统的经验