我们的目标
万事达卡在全球200多个国家和地区推动经济发展并赋能个人。与我们的客户共同努力,我们正在帮助建立一个可持续的经济,使每个人都能繁荣发展。我们支持多种数字支付选择,使交易安全、简单、智能且易于访问。我们的技术与创新、合作伙伴关系和网络结合在一起,提供一套独特的产品和服务,帮助个人、企业和政府实现其最大潜力。
职位和摘要
高级/首席数据工程师
我们正在为我们的职位寻找优秀人才——首席数据工程师和高级数据工程师加入万事达卡创研中心。您将通过探索新技术和构建可扩展的数据驱动原型和产品来帮助塑造我们的创新路线图。理想的候选人是动手能力强、好奇心强、适应性强并有动机进行实验和学习。
首席数据工程师
您的职责
* 推动数据架构:负责AI项目的数据架构和建模策略。定义数据的存储、组织和访问方式。选择技术、设计模式/格式,确保系统支持可扩展的AI和分析工作负载。
* 构建可扩展的数据管道:领导开发稳健的ETL/ELT工作流和数据模型。构建管道,以高可靠性和低延迟移动大型数据集,以支持AI和生成AI系统的训练和推理。
* 确保数据质量和治理:监督数据治理并遵守内部标准和法规。实施数据匿名化、质量检查、数据沿袭和处理敏感信息的控制。
* 提供技术领导:在数据工程项目中提供动手领导。进行代码审查,执行最佳实践,并促进清晰、经过良好测试的代码。在开发流程和工具中引入改进。
* 跨职能协作:与工程师、科学家和产品利益相关者密切合作。确定工作范围,在敏捷冲刺中管理数据交付,并确保按时交付与项目里程碑一致的数据组件。
您将带来
* 丰富的数据工程经验:8-12年以上数据工程或后端工程经验,包括高级/首席职位。设计端到端数据系统、解决规模/性能挑战、整合多样化来源并在生产中运行管道的经验。
* 大数据和云专业知识:精通Python和/或Java/Scala。深入了解Spark、Hadoop、Hive/Impala和Airflow。使用AWS、Azure或GCP进行云原生处理和存储服务(如S3、Glue、EMR、Data Factory)的实际操作。能够为实验和可变的研发环境设计可扩展、成本高效的工作负载。
* AI/ML数据生命周期知识:了解机器学习的数据需求——数据集准备、特征/标签管理以及支持实时或批量训练管道。具有特征存储或流数据经验是有用的。
* 领导力和指导能力:能够将模糊的目标转化为清晰的计划,指导工程师并领导技术执行。
* 解决问题的心态:系统地处理问题,使用分析和数据选择可扩展、可维护的解决方案。
必需技能
* 教育背景:计算机科学、工程或相关领域的学士学位。8-12年以上架构和操作生产级数据系统的验证经验,特别是那些支持分析或ML工作负载的系统。
* 管道开发:精通ETL/ELT设计和实施,处理多样化的数据源、转换和目标。使用Airflow或类似工具进行管道调度和编排的丰富经验。
* 编程和数据库:高级Python和/或Scala/Java技能和强大的软件工程基础(版本控制、CI、代码审查)。优秀的SQL能力,包括大数据集上的性能调优。
* 大数据技术:实际操作Spark经验(RDDs/DataFrames、优化)。熟悉Hadoop组件(HDFS、YARN)、Hive/Impala和流系统如Kafka或Kinesis。
* 云基础设施:在AWS/Azure/GCP上部署数据系统的经验。熟悉云数据湖、仓库(Redshift、BigQuery、Snowflake)和基于云的处理引擎(EMR、Dataproc、Glue、Synapse)。熟悉Linux和shell脚本。
* 数据治理和安全:了解数据隐私法规、PII处理、访问控制、加密/屏蔽和数据质量验证。具有元数据管理或数据目录工具经验者优先。
* 协作和敏捷交付:强大的沟通能力和与跨职能团队合作的经验。能够清晰地记录设计并使用敏捷实践迭代交付。
优先技能
* 高级云和数据平台专业知识:具有AWS数据工程服务、Databricks和Lakehouse/Delta Lake架构(包括青铜/白银/黄金层)的经验。
* 现代数据栈:熟悉dbt、Great Expectations、容器化(Docker/Kubernetes)和监控工具如Grafana或云原生监控。
* 数据的DevOps和CI/CD:实施数据工作流的CI/CD管道和使用IaC工具如Terraform或CloudFormation的经验。了解数据版本控制(如Delta Lake时间旅行)并支持ML系统的持续交付。
* 持续学习:有动机探索新兴技术,特别是在AI和生成AI数据工作流中。
高级数据工程师
您的职责
* 推动数据架构:负责AI项目的数据架构和建模策略。定义数据的存储、组织和访问方式。选择技术、设计模式/格式,确保系统支持可扩展的AI和分析工作负载。
* 构建可扩展的数据管道:领导开发稳健的ETL/ELT工作流和数据模型。构建管道,以高可靠性和低延迟移动大型数据集,以支持AI和生成AI系统的训练和推理。
* 确保数据质量和治理:监督数据治理并遵守内部标准和法规。实施数据匿名化、质量检查、数据沿袭和处理敏感信息的控制。
* 提供技术领导:在数据工程项目中提供动手领导。进行代码审查,执行最佳实践,并促进清晰、经过良好测试的代码。在开发流程和工具中引入改进。
* 跨职能协作:与工程师、科学家和产品利益相关者密切合作。确定工作范围,在敏捷冲刺中管理数据交付,并确保按时交付与项目里程碑一致的数据组件。
您将带来
* 数据工程经验:在数据工程或后端工程方面的经验。设计端到端数据系统、解决规模/性能挑战、整合多样化来源并在生产中运行管道的经验将是一个加分项。
* 大数据和云专业知识:精通Python和/或Java/Scala。深入了解Spark、Hadoop、Hive/Impala和Airflow。使用AWS、Azure或GCP进行云原生处理和存储服务(如S3、Glue、EMR、Data Factory)的实际操作。能够为实验和可变的研发环境设计可扩展、成本高效的工作负载。
* AI/ML数据生命周期知识:了解机器学习的数据需求——数据集准备、特征/标签管理以及支持实时或批量训练管道。具有特征存储或流数据经验是有用的。
* 领导力和指导能力:能够将模糊的目标转化为清晰的计划,指导工程师并领导技术执行。
* 解决问题的心态:系统地处理问题,使用分析和数据选择可扩展、可维护的解决方案。
必需技能
* 教育背景:计算机科学、工程或相关领域的学士学位。5年以上架构和操作生产级数据系统的验证经验,特别是那些支持分析或ML工作负载的系统。
* 管道开发:精通ETL/ELT设计和实施,处理多样化的数据源、转换和目标。使用Airflow或类似工具进行管道调度和编排的丰富经验。
* 编程和数据库:高级Python和/或Scala/Java技能和强大的软件工程基础(版本控制、CI、代码审查)。优秀的SQL能力,包括大数据集上的性能调优。
* 大数据技术:实际操作Spark经验(RDDs/DataFrames、优化)。熟悉Hadoop组件(HDFS、YARN)、Hive/Impala和流系统如Kafka或Kinesis。
* 云基础设施:在AWS/Azure/GCP上部署数据系统的经验。熟悉云数据湖、仓库(Redshift、BigQuery、Snowflake)和基于云的处理引擎(EMR、Dataproc、Glue、Synapse)。熟悉Linux和shell脚本。
* 数据治理和安全:了解数据隐私法规、PII处理、访问控制、加密/屏蔽和数据质量验证。具有元数据管理或数据目录工具经验者优先。
* 协作和敏捷交付:强大的沟通能力和与跨职能团队合作的经验。能够清晰地记录设计并使用敏捷实践迭代交付。
优先技能
* 高级云和数据平台专业知识:具有AWS数据工程服务、Databricks和Lakehouse/Delta Lake架构(包括青铜/白银/黄金层)的经验。
* 现代数据栈:熟悉dbt、Great Expectations、容器化(Docker/Kubernetes)和监控工具如Grafana或云原生监控。
* 数据的DevOps和CI/CD:实施数据工作流的CI/CD管道和使用IaC工具如Terraform或CloudFormation的经验。了解数据版本控制(如Delta Lake时间旅行)并支持ML系统的持续交付。
* 持续学习:有动机探索新兴技术,特别是在AI和生成AI数据工作流中。
企业安全责任
所有涉及访问万事达卡资产、信息和网络的活动都对组织构成固有风险,因此,期望每个为万事达卡工作或代表万事达卡工作的人都对信息安全负责,并必须:
遵守万事达卡的安全政策和实践;
确保所访问信息的机密性和完整性;
报告任何涉嫌的信息安全违规或泄露,并
根据万事达卡的指导完成所有定期的强制性安全培训。