职位名称:数据工程师(Spark Scala DevOps)
工作目标
我们正在寻找一位技术娴熟、积极主动的数据工程师,具备Hadoop、Spark、OpenShift容器平台(OCP)和DevOps实践方面的专业知识。
作为一名数据工程师,您将负责设计、开发和维护高效的数据流水线,处理大规模数据集。
您在Hadoop、Spark、OCP和DevOps方面的专业知识将对我们的机器学习解决方案的可用性、可伸缩性和可靠性起到至关重要的作用。
主要职责
• 实施数据转换、聚合和增强流程,支持各种数据分析和机器学习项目。
• 与跨职能团队合作,了解数据需求,并将其转化为有效的数据工程解决方案。
• 确保数据质量和完整性在整个数据处理生命周期中得到保证。
• 使用容器化和编排技术,在OpenShift容器平台(OCP)上设计和部署数据工程解决方案。
• 优化容器化部署和高效资源利用的数据工程工作流程
• 与DevOps团队合作,简化部署流程,实施CI/CD流水线,并确保平台的稳定性
• 实施数据治理实践、数据血统和元数据管理,以确保数据的准确性、可追溯性和合规性
• 监控和优化数据流水线性能,排除故障并实施必要的增强措施
• 实施监控和日志记录机制,确保数据基础设施的健康、可用性和性能
• 记录数据工程流程、工作流程和基础设施配置,以便进行知识共享和参考
• 了解新兴技术、行业趋势和数据工程与DevOps的最佳实践
• 提供技术领导、指导和指导初级团队成员,培养持续学习和创新文化,不断改进银行内部的分析能力
主要要求
• 计算机科学、信息技术或相关领域的学士学位
• 在大规模环境中使用Hadoop、Spark和数据处理技术担任数据工程师的经验
• 在使用Hadoop、Spark和相关工具(HDFS、Hive、Pig等)设计和开发数据基础设施方面具有丰富的专业知识
• 有使用OpenShift容器平台(OCP)和使用Kubernetes进行容器编排的经验
• 熟练掌握数据工程常用的编程语言,如Spark、Python、Scala或Java
• 了解DevOps实践、CI/CD流水线和基础设施自动化工具(如Docker、Jenkins、Ansible、BitBucket)
• 有Graphana、Prometheus、Splunk等经验将是一个额外的优势
• 具有积极主动的解决问题和解决技术挑战的能力
• 出色的协作和沟通能力,能够与跨职能团队有效合作
• 能够管理多个优先事项,在快节奏的环境中按时交付高质量的结果
• 有云平台(如AWS、Azure、GCP)及其数据服务方面的经验将是一个加分项