职位描述:
我们正在寻找一位高技能且积极进取的首席大数据工程师,加入我们的数据团队。理想的候选人将在设计、开发和维护可扩展的大数据解决方案方面发挥关键作用,同时提供技术领导。这一角色还将支持战略数据治理计划,确保组织内的数据完整性、隐私和可访问性。
主要职责:
● 使用 SQL 和 Python 设计、实施和优化强健的数据管道及 ETL/ELT 工作流。
● 主导架构讨论,包括创建和审查实体关系图(ERD)及整体系统设计。
● 与数据工程师、分析师及跨职能工程团队密切合作,以满足不断变化的数据需求。
● 使用 Terraform 和其他基础设施即代码(IaC)工具部署和管理基础设施。
● 开发和维护 CI/CD 管道,以部署数据应用和服务。
● 利用在 AWS 服务(如 S3、Glue、Lambda、RDS、Lake Formation)方面的丰富经验,支持可扩展和安全的云数据平台。
● 有效处理批量和实时数据处理。
● 应用数据建模的最佳实践,并支持数据隐私和数据保护计划。
● 实施和管理数据加密和哈希技术,以保护敏感信息。
● 确保遵循软件工程最佳实践,包括版本控制、自动化测试和部署标准。
● 领导数据应用和平台的性能调优和故障排除。
所需技能与经验:
● 在 SQL 数据建模、查询和转换方面具有强大的熟练度。
● 具备高级 Python 开发技能,重点关注数据工程用例。
● 在云基础设施配置方面具有 Terraform 的实际经验。
● 熟悉 CI/CD 工具,特别是 GitHub Actions。
● 深入了解 AWS 云架构和服务。
● 展示创建和评估 ERD 的能力,并参与架构决策。
● 具备强大的沟通和领导能力,有指导工程团队的经验。
优先资格:
● 具备 Apache Spark、Hive 或 Kafka 等大数据技术的经验。
● 熟悉容器化工具(如 Docker)和编排平台(如 Kubernetes)。
● 对数据治理、数据质量和安全框架有扎实的理解。