职位目标
银行正在寻找一位熟练而有动力的数据工程师,具备Hadoop、Spark、OpenShift容器平台(OCP)和DevOps实践方面的专业知识。作为一名数据工程师,您将负责设计、开发和维护高效的数据流水线,处理大规模数据集。您在Hadoop、Spark、OCP和DevOps方面的专业知识将对确保机器学习解决方案的可用性、可扩展性和可靠性至关重要。
主要职责
· 实施数据转换、聚合和增强过程,支持各种数据分析和机器学习项目
· 与跨职能团队合作,了解数据需求,并将其转化为有效的数据工程解决方案
· 在数据处理生命周期中确保数据质量和完整性
· 使用容器化和编排技术,在OpenShift容器平台(OCP)上设计和部署数据工程解决方案
· 优化容器化部署和高效资源利用的数据工程工作流程
· 与DevOps团队合作,简化部署流程,实施CI/CD流水线,并确保平台稳定性
· 实施数据治理实践、数据血统和元数据管理,确保数据准确性、可追溯性和合规性
· 监控和优化数据流水线性能,解决问题,并实施必要的增强措施
· 实施监控和日志记录机制,确保数据基础设施的健康、可用性和性能
· 记录数据工程流程、工作流程和基础设施配置,以进行知识共享和参考
· 了解新兴技术、行业趋势和数据工程和DevOps的最佳实践
· 提供技术领导、指导和指导初级团队成员,培养持续学习和创新的文化,不断改进银行的分析能力
主要要求
· 计算机科学、信息技术或相关领域的学士学位
· 在大规模环境中使用Hadoop、Spark和数据处理技术的数据工程师的经验
· 在使用Hadoop、Spark和相关工具(HDFS、Hive、Pig等)设计和开发数据基础设施方面具备强大的专业知识
· 具备使用OpenShift容器平台(OCP)和使用Kubernetes进行容器编排的经验
· 熟练掌握数据工程常用的编程语言,如Spark、Python、Scala或Java
· 了解DevOps实践、CI/CD流水线和基础设施自动化工具(例如Docker、Jenkins、Ansible、BitBucket)
· 有Graphana、Prometheus、Splunk的经验将是一个额外的优势
· 具备解决技术挑战的积极解决问题和故障排除能力
· 出色的协作和沟通能力,能够与跨职能团队有效合作
· 能够管理多个优先事项,在快节奏的环境中按时交付高质量的结果
· 有云平台(例如AWS、Azure、GCP)及其数据服务的经验将是一个加分项