我们的目标
Mastercard在全球200多个国家和地区推动经济发展并赋能个人。与我们的客户共同努力,我们正在帮助构建一个可持续的经济,让每个人都能繁荣发展。我们支持多种数字支付选择,使交易安全、简单、智能且易于访问。我们的技术和创新、合作伙伴关系和网络结合在一起,提供一套独特的产品和服务,帮助个人、企业和政府实现其最大潜力。
职位和摘要
高级/首席数据工程师
我们正在寻找优秀的人才加入Mastercard Foundry研发团队,担任首席数据工程师和高级数据工程师。您将通过探索新技术和构建可扩展的数据驱动原型和产品来帮助塑造我们的创新路线图。理想的候选人应具备动手能力、好奇心、适应性强,并有实验和学习的动力。
首席数据工程师
您的职责
- 推动数据架构:负责AI项目的数据架构和建模策略。定义数据的存储、组织和访问方式。选择技术、设计模式/格式,并确保系统支持可扩展的AI和分析工作负载。
- 构建可扩展的数据管道:领导开发稳健的ETL/ELT工作流和数据模型。构建高可靠性和低延迟的大数据集管道,以支持AI和生成式AI系统的训练和推理。
- 确保数据质量和治理:监督数据治理并遵守内部标准和法规。实施数据匿名化、质量检查、血统和处理敏感信息的控制。
- 提供技术领导:在数据工程项目中提供动手领导。进行代码审查,执行最佳实践,并促进干净、经过良好测试的代码。引入开发流程和工具的改进。
- 跨职能合作:与工程师、科学家和产品利益相关者密切合作。确定工作范围,管理敏捷冲刺中的数据交付,并确保按项目里程碑及时交付数据组件。
您将带来
- 丰富的数据工程经验:8-12年以上数据工程或后端工程经验,包括高级/领导角色。设计端到端数据系统、解决规模/性能挑战、集成多样化来源并在生产中操作管道的经验。
- 大数据和云专业知识:精通Python和/或Java/Scala。深入了解Spark、Hadoop、Hive/Impala和Airflow。使用AWS、Azure或GCP进行云原生处理和存储服务(如S3、Glue、EMR、Data Factory)的动手工作。能够为实验和可变的研发环境设计可扩展、成本高效的工作负载。
- AI/ML数据生命周期知识:了解机器学习的数据需求——数据集准备、特征/标签管理以及支持实时或批量训练管道。具有特征存储或流数据经验是有用的。
- 领导和指导能力:能够将模糊目标转化为清晰计划,指导工程师并领导技术执行。
- 解决问题的思维方式:系统地处理问题,使用分析和数据选择可扩展、可维护的解决方案。
必备技能
- 教育和背景:计算机科学、工程或相关领域的学士学位。8-12年以上架构和操作生产级数据系统的验证经验,尤其是支持分析或ML工作负载的系统。
- 管道开发:ETL/ELT设计和实施专家,处理多样化数据源、转换和目标。使用Airflow或类似工具进行管道调度和编排的丰富经验。
- 编程和数据库:高级Python和/或Scala/Java技能以及强大的软件工程基础(版本控制、CI、代码审查)。优秀的SQL能力,包括大数据集上的性能调优。
- 大数据技术:动手Spark经验(RDDs/DataFrames、优化)。熟悉Hadoop组件(HDFS、YARN)、Hive/Impala和流系统如Kafka或Kinesis。
- 云基础设施:在AWS/Azure/GCP上部署数据系统的经验。熟悉云数据湖、仓库(Redshift、BigQuery、Snowflake)和基于云的处理引擎(EMR、Dataproc、Glue、Synapse)。熟悉Linux和shell脚本。
- 数据治理和安全:了解数据隐私法规、PII处理、访问控制、加密/掩码和数据质量验证。具有元数据管理或数据目录工具经验者优先。
- 合作和敏捷交付:强大的沟通能力和与跨职能团队合作的经验。能够清晰地记录设计并使用敏捷实践迭代交付。
优先技能
- 高级云和数据平台专业知识:具有AWS数据工程服务、Databricks和Lakehouse/Delta Lake架构(包括青铜/白银/黄金层)的经验。
- 现代数据栈:熟悉dbt、Great Expectations、容器化(Docker/Kubernetes)和监控工具如Grafana或云原生监控。
- 数据的DevOps和CI/CD:有实施数据工作流CI/CD管道的经验,并使用IaC工具如Terraform或CloudFormation。了解数据版本控制(如Delta Lake时间旅行)并支持ML系统的持续交付。
- 持续学习:有探索新兴技术的动力,尤其是在AI和生成式AI数据工作流中。
高级数据工程师
您的职责
- 推动数据架构:负责AI项目的数据架构和建模策略。定义数据的存储、组织和访问方式。选择技术、设计模式/格式,并确保系统支持可扩展的AI和分析工作负载。
- 构建可扩展的数据管道:领导开发稳健的ETL/ELT工作流和数据模型。构建高可靠性和低延迟的大数据集管道,以支持AI和生成式AI系统的训练和推理。
- 确保数据质量和治理:监督数据治理并遵守内部标准和法规。实施数据匿名化、质量检查、血统和处理敏感信息的控制。
- 提供技术领导:在数据工程项目中提供动手领导。进行代码审查,执行最佳实践,并促进干净、经过良好测试的代码。引入开发流程和工具的改进。
- 跨职能合作:与工程师、科学家和产品利益相关者密切合作。确定工作范围,管理敏捷冲刺中的数据交付,并确保按项目里程碑及时交付数据组件。
您将带来
- 数据工程经验:在数据工程或后端工程方面的经验。设计端到端数据系统、解决规模/性能挑战、集成多样化来源并在生产中操作管道的经验将是一个加分项。
- 大数据和云专业知识:精通Python和/或Java/Scala。深入了解Spark、Hadoop、Hive/Impala和Airflow。使用AWS、Azure或GCP进行云原生处理和存储服务(如S3、Glue、EMR、Data Factory)的动手工作。能够为实验和可变的研发环境设计可扩展、成本高效的工作负载。
- AI/ML数据生命周期知识:了解机器学习的数据需求——数据集准备、特征/标签管理以及支持实时或批量训练管道。具有特征存储或流数据经验是有用的。
- 领导和指导能力:能够将模糊目标转化为清晰计划,指导工程师并领导技术执行。
- 解决问题的思维方式:系统地处理问题,使用分析和数据选择可扩展、可维护的解决方案。
必备技能
- 教育和背景:计算机科学、工程或相关领域的学士学位。5年以上架构和操作生产级数据系统的验证经验,尤其是支持分析或ML工作负载的系统。
- 管道开发:ETL/ELT设计和实施专家,处理多样化数据源、转换和目标。使用Airflow或类似工具进行管道调度和编排的丰富经验。
- 编程和数据库:高级Python和/或Scala/Java技能以及强大的软件工程基础(版本控制、CI、代码审查)。优秀的SQL能力,包括大数据集上的性能调优。
- 大数据技术:动手Spark经验(RDDs/DataFrames、优化)。熟悉Hadoop组件(HDFS、YARN)、Hive/Impala和流系统如Kafka或Kinesis。
- 云基础设施:在AWS/Azure/GCP上部署数据系统的经验。熟悉云数据湖、仓库(Redshift、BigQuery、Snowflake)和基于云的处理引擎(EMR、Dataproc、Glue、Synapse)。熟悉Linux和shell脚本。
- 数据治理和安全:了解数据隐私法规、PII处理、访问控制、加密/掩码和数据质量验证。具有元数据管理或数据目录工具经验者优先。
- 合作和敏捷交付:强大的沟通能力和与跨职能团队合作的经验。能够清晰地记录设计并使用敏捷实践迭代交付。
优先技能
- 高级云和数据平台专业知识:具有AWS数据工程服务、Databricks和Lakehouse/Delta Lake架构(包括青铜/白银/黄金层)的经验。
- 现代数据栈:熟悉dbt、Great Expectations、容器化(Docker/Kubernetes)和监控工具如Grafana或云原生监控。
- 数据的DevOps和CI/CD:有实施数据工作流CI/CD管道的经验,并使用IaC工具如Terraform或CloudFormation。了解数据版本控制(如Delta Lake时间旅行)并支持ML系统的持续交付。
- 持续学习:有探索新兴技术的动力,尤其是在AI和生成式AI数据工作流中。
企业安全责任
所有涉及访问Mastercard资产、信息和网络的活动都对组织存在固有风险,因此,期望每位为Mastercard工作或代表Mastercard工作的人都负责信息安全,并必须:
- 遵守Mastercard的安全政策和实践;
- 确保所访问信息的机密性和完整性;
- 报告任何涉嫌的信息安全违规或泄露;
- 根据Mastercard的指南完成所有定期的强制性安全培训。