高级/首席数据工程师

新加坡 25天前全职 网络
面议
我们的目标 万事达卡在全球200多个国家和地区推动经济发展并赋能个人。与我们的客户携手合作,我们正在帮助建立一个可持续的经济,使每个人都能繁荣发展。我们支持多种数字支付选择,使交易安全、简单、智能且易于访问。我们的技术与创新、合作伙伴关系和网络结合在一起,提供一套独特的产品和服务,帮助个人、企业和政府实现其最大潜力。 职位和摘要 高级/首席数据工程师 我们正在为我们的职位寻找优秀人才——首席数据工程师和高级数据工程师,加入万事达卡Foundry研发团队。您将通过探索新技术和构建可扩展的数据驱动原型和产品来帮助塑造我们的创新路线图。理想的候选人应动手能力强、好奇心强、适应性强,并有动机进行实验和学习。 首席数据工程师 您的工作内容 - 推动数据架构:负责AI项目的数据架构和建模策略。定义数据的存储、组织和访问方式。选择技术、设计模式/格式,并确保系统支持可扩展的AI和分析工作负载。 - 构建可扩展的数据管道:领导开发稳健的ETL/ELT工作流和数据模型。构建高可靠性、低延迟地移动大型数据集的管道,以支持AI和生成式AI系统的训练和推理。 - 确保数据质量和治理:监督数据治理并遵守内部标准和法规。实施数据匿名化、质量检查、数据沿袭和处理敏感信息的控制。 - 提供技术领导:在数据工程项目中提供实际操作的领导。进行代码审查,执行最佳实践,并推广干净、经过良好测试的代码。引入开发过程和工具的改进。 - 跨职能协作:与工程师、科学家和产品利益相关者密切合作。确定工作范围,在敏捷冲刺中管理数据交付,并确保按项目里程碑及时交付数据组件。 您将带来的 - 丰富的数据工程经验:8-12年以上的数据工程或后端工程经验,包括高级/首席角色。设计端到端数据系统、解决规模/性能挑战、整合多样化来源并在生产中运行管道的经验。 - 大数据和云专业知识:精通Python和/或Java/Scala。深入了解Spark、Hadoop、Hive/Impala和Airflow。使用AWS、Azure或GCP的云原生处理和存储服务(如S3、Glue、EMR、Data Factory)进行实际操作。能够为实验和可变的研发环境设计可扩展、成本高效的工作负载。 - AI/ML数据生命周期知识:了解机器学习的数据需求——数据集准备、特征/标签管理以及支持实时或批量训练管道。具有特征存储或流数据经验者优先。 - 领导力和指导能力:能够将模糊的目标转化为清晰的计划,指导工程师并领导技术执行。 - 问题解决思维:系统地处理问题,使用分析和数据选择可扩展、可维护的解决方案。 必备技能 - 教育背景:计算机科学、工程或相关领域的学士学位。8-12年以上架构和操作生产级数据系统的证明经验,特别是支持分析或ML工作负载的系统。 - 管道开发:ETL/ELT设计和实施专家,处理多样化的数据源、转换和目标。使用Airflow或类似工具调度和编排管道的丰富经验。 - 编程和数据库:高级Python和/或Scala/Java技能和强大的软件工程基础(版本控制、CI、代码审查)。优秀的SQL能力,包括大数据集上的性能调优。 - 大数据技术:实际操作Spark经验(RDDs/DataFrames、优化)。熟悉Hadoop组件(HDFS、YARN)、Hive/Impala和流系统如Kafka或Kinesis。 - 云基础设施:在AWS/Azure/GCP上部署数据系统的经验。熟悉云数据湖、仓库(Redshift、BigQuery、Snowflake)和基于云的处理引擎(EMR、Dataproc、Glue、Synapse)。熟悉Linux和shell脚本。 - 数据治理和安全:了解数据隐私法规、PII处理、访问控制、加密/掩码和数据质量验证。具有元数据管理或数据目录工具经验者优先。 - 协作和敏捷交付:强大的沟通能力和跨职能团队合作经验。能够清晰记录设计并使用敏捷实践迭代交付。 优选技能 - 高级云和数据平台专业知识:具有AWS数据工程服务、Databricks和Lakehouse/Delta Lake架构(包括青铜/白银/黄金层)的经验。 - 现代数据栈:熟悉dbt、Great Expectations、容器化(Docker/Kubernetes)和监控工具如Grafana或云原生监控。 - 数据的DevOps和CI/CD:实施数据工作流的CI/CD管道和使用IaC工具如Terraform或CloudFormation的经验。了解数据版本控制(如Delta Lake时间旅行)和支持ML系统的持续交付。 - 持续学习:有动机探索新兴技术,尤其是在AI和生成式AI数据工作流中。 高级数据工程师 您的工作内容 - 推动数据架构:负责AI项目的数据架构和建模策略。定义数据的存储、组织和访问方式。选择技术、设计模式/格式,并确保系统支持可扩展的AI和分析工作负载。 - 构建可扩展的数据管道:领导开发稳健的ETL/ELT工作流和数据模型。构建高可靠性、低延迟地移动大型数据集的管道,以支持AI和生成式AI系统的训练和推理。 - 确保数据质量和治理:监督数据治理并遵守内部标准和法规。实施数据匿名化、质量检查、数据沿袭和处理敏感信息的控制。 - 提供技术领导:在数据工程项目中提供实际操作的领导。进行代码审查,执行最佳实践,并推广干净、经过良好测试的代码。引入开发过程和工具的改进。 - 跨职能协作:与工程师、科学家和产品利益相关者密切合作。确定工作范围,在敏捷冲刺中管理数据交付,并确保按项目里程碑及时交付数据组件。 您将带来的 - 数据工程经验:数据工程或后端工程经验。设计端到端数据系统、解决规模/性能挑战、整合多样化来源并在生产中运行管道的经验将是一个加分项。 - 大数据和云专业知识:精通Python和/或Java/Scala。深入了解Spark、Hadoop、Hive/Impala和Airflow。使用AWS、Azure或GCP的云原生处理和存储服务(如S3、Glue、EMR、Data Factory)进行实际操作。能够为实验和可变的研发环境设计可扩展、成本高效的工作负载。 - AI/ML数据生命周期知识:了解机器学习的数据需求——数据集准备、特征/标签管理以及支持实时或批量训练管道。具有特征存储或流数据经验者优先。 - 领导力和指导能力:能够将模糊的目标转化为清晰的计划,指导工程师并领导技术执行。 - 问题解决思维:系统地处理问题,使用分析和数据选择可扩展、可维护的解决方案。 必备技能 - 教育背景:计算机科学、工程或相关领域的学士学位。5年以上架构和操作生产级数据系统的证明经验,特别是支持分析或ML工作负载的系统。 - 管道开发:ETL/ELT设计和实施专家,处理多样化的数据源、转换和目标。使用Airflow或类似工具调度和编排管道的丰富经验。 - 编程和数据库:高级Python和/或Scala/Java技能和强大的软件工程基础(版本控制、CI、代码审查)。优秀的SQL能力,包括大数据集上的性能调优。 - 大数据技术:实际操作Spark经验(RDDs/DataFrames、优化)。熟悉Hadoop组件(HDFS、YARN)、Hive/Impala和流系统如Kafka或Kinesis。 - 云基础设施:在AWS/Azure/GCP上部署数据系统的经验。熟悉云数据湖、仓库(Redshift、BigQuery、Snowflake)和基于云的处理引擎(EMR、Dataproc、Glue、Synapse)。熟悉Linux和shell脚本。 - 数据治理和安全:了解数据隐私法规、PII处理、访问控制、加密/掩码和数据质量验证。具有元数据管理或数据目录工具经验者优先。 - 协作和敏捷交付:强大的沟通能力和跨职能团队合作经验。能够清晰记录设计并使用敏捷实践迭代交付。 优选技能 - 高级云和数据平台专业知识:具有AWS数据工程服务、Databricks和Lakehouse/Delta Lake架构(包括青铜/白银/黄金层)的经验。 - 现代数据栈:熟悉dbt、Great Expectations、容器化(Docker/Kubernetes)和监控工具如Grafana或云原生监控。 - 数据的DevOps和CI/CD:实施数据工作流的CI/CD管道和使用IaC工具如Terraform或CloudFormation的经验。了解数据版本控制(如Delta Lake时间旅行)和支持ML系统的持续交付。 - 持续学习:有动机探索新兴技术,尤其是在AI和生成式AI数据工作流中。 企业安全责任 所有涉及访问万事达卡资产、信息和网络的活动都对组织存在固有风险,因此,预计每个为万事达卡工作或代表万事达卡工作的人都对信息安全负责,并必须: - 遵守万事达卡的安全政策和实践; - 确保所访问信息的机密性和完整性; - 报告任何疑似的信息安全违规或泄露; - 根据万事达卡的指导方针完成所有定期的强制性安全培训。