云效率架构师

25天前全职
149.4万 - 285万 / 年 NVIDIA

NVIDIA

location 旧金山
unsaved
NVIDIA 在计算机图形学、PC 游戏和加速计算领域已经转型超过 25 年。这是一个独特的创新遗产,得益于卓越的技术和出色的人才。 今天,我们正在利用人工智能的无限潜力来定义计算的下一个时代。在这个时代,我们的 GPU 将作为计算机、机器人和能够理解世界的自动驾驶汽车的大脑。做前所未有的事情需要远见、创新和世界顶尖的人才。作为 NVIDIAN,您将在一个多元化、支持性的环境中沉浸,每个人都受到激励,努力做到最好。加入团队,看看您如何能对世界产生持久的影响。Colossus Cloud 是 GPU 启动基础设施战略的核心,应用于 NVIDIA 所有的软件开发和质量保证。该云服务提供多种资源类型,以支持各种用例,例如用于开发的裸金属、用于 CI/CD 的托管 K8s 服务等。随着我们在新数据中心的增长和扩展,既用于新产品的启动也用于扩展,我们正在寻找云效率架构师。该职位涉及为总拥有成本、投资回报和使用情况制定、实施和维护强有力的模型。对基础设施、合作者和财务的效率见解,帮助实现数据驱动的决策,以优化 Colossus 投资。候选人必须展示出强大的商业和技术能力,具备云概念的知识。 您将要做的事情: • Colossus 利用率和成本模型开发:设计、构建和维护私有云服务的全面成本模型,包括计算、存储、网络和平台服务。 • 开发 Colossus 资源消耗和需求的预测模型,应用历史数据和未来预测来指导 TCO 预测。 • 构建/测试作业成本:为内部的构建和测试作业创建详细的成本模型,将成本归因于单个管道、项目或团队。 • 组织(OrgN)级成本分配:开发和完善成本分配策略,以提供按组织单元、部门或业务职能(OrgN 级别)划分的清晰、可操作的成本细目。 • 数据分析与报告:分析来自多个 Colossus 的大型数据集,以识别成本异常、优化机会和趋势。开发和自动化报告和仪表板,以可视化不同合作者的关键成本和利用率指标。 • 工具与自动化:评估、实施和利用 FinOps 和云成本管理工具,以改善报告、预测和优化能力。在可行的情况下自动化数据收集和报告流程。 • 合作者沟通:以清晰、简明和可操作的方式向技术和非技术受众(包括高级领导)展示利用率模型和见解。 我们需要看到的: • 12 年以上的证明经验,包括 5 年以上的云 TCO - 计费、利用率和 TCO 分析。 • 愿意快速适应和学习新技能;渴望深入了解新机会,同时在各部门之间领导协作倡议。 • 深入了解云原生产品/服务环境。 • 具有生成 Power BI 或仪表板以推动行动的经验。 • 曾在大规模云环境中工作。 • 熟悉 AI、ML 基础设施、VIBE 编码和云/服务。 • MBA/MS 或同等经验。 脱颖而出的方式: • 优化云基础设施以实现 TCO 的专业知识。 • 云原生工具,如 AWS 成本探测器、GCP 计费、Azure 成本管理。 • 扎实的协作和人际交往能力,尤其是在动态环境中有效指导和影响的良好记录。 • mySQL、Splunk 知识加分。 • 对一个或多个主要云服务提供商(AWS、Azure、GCP)有深入的知识和实践经验。 您的基本薪资将根据您的地点、经验以及与类似职位员工的薪资进行确定。基本薪资范围为 208,000 美元 - 333,500 美元(5 级),248,000 美元 - 396,750 美元(6 级)。 您还将有资格获得股权和福利。 该职位的申请将至少接受到 2025 年 8 月 12 日。NVIDIA 致力于促进多元化的工作环境,并自豪地成为一个平等机会的雇主。由于我们高度重视当前和未来员工的多样性,因此我们在招聘和晋升实践中不基于种族、宗教、肤色、国籍、性别、性别表达、性取向、年龄、婚姻状况、退伍军人身份、残疾状态或任何其他受法律保护的特征进行歧视。