现场可靠性工程师 – 数据中心 AI 工程 – 利雅得,沙特阿拉伯

利雅得 无个税12天前全职 网络
面议
现场可靠性工程师 – 数据中心 AI 工程 – 利雅得,沙特阿拉伯职位在 الرياض 的高通 公司: 高通中东信息技术公司 LLC 职位领域: 工程组,工程组 > 软件工程 概述: 关于我们 高通正在推动一个每个人和每个事物都能智能连接的世界。您每天都在与高通所驱动的产品和技术互动,包括可作为专业级相机和游戏设备的 5G 智能手机,更智能的车辆和城市,以及制造您最新购买的智能互联工厂背后的技术。高通的 5G 和 AI 创新是连接智能边缘的动力。您会发现我们的技术在多个行业和数十亿人每天所带来的重要价值背后和内部。 关于角色 我们正在招聘一名现场可靠性工程师 – 数据中心 AI 工程,工作地点在沙特阿拉伯利雅得的高通技术公司。该角色主要集中于设计、维护和扩展数据中心环境中的大规模 AI 推理系统。您将支持关键的 AI 用例,确保高通的基础设施对于先进的机器学习工作负载是稳健、可靠和可扩展的。 主要职责包括: AI 基础设施 • 设计和维护支持关键 AI 用例的大规模 AI 推理系统。 • 确保高通数据中心集群的可靠性、可操作性和可扩展性。 • 构建围绕 AI 软件栈的软件工具和生态系统。 AI 和 ML 工程 • 分析软件需求,并与架构和硬件工程师进行咨询。 • 在构建 Agentic AI 解决方案、LLM 编排和 Agentic AI 库方面有实际经验。 • 与模型、系统和软件团队合作,以改善 AI100 部署上的模型性能。 • 确定优化多 SoC 和多卡系统工作负载的特性。 现场可靠性工程(SRE) • 实施 SRE 基础:事件管理、监控、性能优化。 • 具备 MLOps 工具和实践的实际经验,确保 ML 模型无缝集成到生产中。 • 建立运营成熟度框架和可持续的事件响应协议。 可观察性与工具 • 构建工具和框架以改善可观察性并定义可靠性指标。 • 使用 Prometheus、Grafana、Cloudwatch 和自定义遥测监控系统健康。 • 创建和维护文档和知识库文章。 自动化与 CI/CD • 设计自动化工具以减少手动流程和操作开销。 • 确保代理部署周期的 CI/CD 可靠性。 • 使用 Terraform CDK 等工具应用基础设施即代码实践。 所需技能包括: AI 和深度学习 • 具备 LLM、NLP、视觉、音频和推荐系统的经验。 • 精通 LLM 推理概念:令牌流、批处理、KV 缓存。 • 精通 PyTorch、TensorFlow、JAX 和 Ray。 • 熟悉 GPU / TPU 计算、ML 框架、检查点和分布式推理。 AI 代理操作 • 具备支持 GenAI 或 agentic AI 应用程序在生产中的经验。 • 熟悉 LLM 编排、提示可靠性和 RAG 系统。 • 接触过 LangChain、AutoGen 和类似的代理编排框架。 编程与软件设计 • 具备 Python 的强大编程技能,并有 PyTorch 的经验。 • 脚本(Python、Bash)、配置管理(Ansible/Terraform)、编排。 系统与基础设施 • 具备扎实的 Linux 基础知识:shell、systemd、容器、网络(TLS、DNS、HTTP/2、gRPC)。 • 精通 Slurm(配置、调度、插件/扩展)或同等工具。 • 对网络(RDMA、InfiniBand、RoCE、高吞吐量、低延迟网络)有良好的知识。 • 具备操作和扩展高可用性分布式系统的经验。 可观察性与监控 • 具备使用 Prometheus、Grafana、ELK、Loki、Datadog、SIP、Homer 的实际经验。 • 接触过硬件健康监控和系统可靠性。 DevOps 和 SRE 实践 • 深刻理解 SDLC、发布管理和系统可靠性。 • 熟悉 CI/CD 管道(Jenkins、GitLab)和基础设施即代码(Terraform CDK)。 资格与经验: • 工程、机器学习/ AI、信息系统、计算机科学或相关领域的学士/硕士学位。 • 4-5 年的软件工程或相关工作经验。 提供的福利 除了与优秀的人一起工作,我们还提供以下福利: • 包括住房和交通津贴的薪资 • 股票(RSU)和与绩效相关的奖金 • 16 周全薪产假 • 6 周全薪陪产假 • 员工股票购买计划 • 子女教育津贴 • 迁移和移民支持(如有需要) • 生命和医疗保险 • 健康和休闲会员费用的 Live+ Well 报销 最低资格: • 工程、信息系统、计算机科学或相关领域的学士学位,及 4 年以上软件工程或相关工作经验。 或 工程、信息系统、计算机科学或相关领域的硕士学位,及 3 年以上软件工程或相关工作经验。 或 工程、信息系统、计算机科学或相关领域的博士学位,及 2 年以上软件工程或相关工作经验。 • 2 年以上使用 C、C++、Java、Python 等编程语言的工作经验。 • 对特定年限的参考仅供指示。具有同等经验的候选人也将被考虑,前提是候选人能够证明其履行该角色的主要职责的能力,并具备所需的能力。 高通是一个平等机会的雇主。如果您是需要在申请/招聘过程中提供便利的残疾人士,请放心,高通致力于提供可访问的流程。您可以发送电子邮件至 disability-accomodations@qualcomm.com 或拨打高通的免费电话。在请求时,高通将提供合理的便利,以支持残疾人士能够参与招聘过程。高通还致力于使我们的工作场所对残疾人士可访问。(请注意,此电子邮件地址用于为残疾人士提供合理的便利。我们不会在此回复关于申请或简历查询的更新请求)。 高通期望其员工遵守所有适用的政策和程序,包括但不限于保护公司机密信息和其他机密和/或专有信息的安全及其他要求,前提是这些要求在适用法律下是允许的。 致所有人事和招聘机构:我们的职业网站仅供寻求高通工作的个人使用。人事和招聘机构以及由机构代表的个人无权使用此网站或提交个人资料、申请或简历,任何此类提交将被视为未经请求的。高通不接受来自机构的未经请求的简历或申请。请不要将简历转发至我们的职位别名、高通员工或任何其他公司地点。高通对与未经请求的简历/申请相关的任何费用不承担责任。 如果您想了解有关此角色的更多信息,请联系高通职业。