无处不在的人工智能时代已经到来。在这个时代,组织将利用生成式人工智能来释放数据中的隐藏价值,加速流程,降低成本,提高效率和创新,从而从根本上大规模地转变他们的业务和运营。
SambaNova Suite™ 是第一个从芯片到模型的全栈生成式人工智能平台,专为企业和政府组织优化。由智能SN40L芯片驱动,SambaNova Suite是一个完全集成的平台,可以在本地或云端交付,结合最先进的开源模型,可以轻松安全地使用客户数据进行微调以提高准确性。一旦适应了客户数据,客户将永久保留模型所有权,因此他们可以将生成式人工智能转化为他们最有价值的资产之一。
关于SambaNova Systems
加入正在构建人工智能计算未来的公司。在SambaNova,我们通过集成的硬件和软件平台颠覆了人工智能和高性能计算领域。我们的DataScale系统和SambaFlow软件正在推动生成式人工智能和大型语言模型的可能性边界。我们是一支充满激情的创新者团队,正在解决一些世界上最具挑战性的计算问题。
职位描述
作为一名专注于我们人工智能推理服务的高级云站点可靠性工程师(SRE),您将成为其可靠性、性能和可扩展性的守护者。您将弥合软件开发和运营之间的差距,以工程思维解决运营挑战。您的主要重点将是确保我们的推理端点具有卓越的正常运行时间、低延迟响应时间和高效的资源利用率,直接影响我们的客户体验和人工智能产品的成功。此角色包括参与共享的值班轮换以维护24/7的服务可靠性。
您的职责
服务所有权和值班:共同负责生产推理服务,包括其可用性、延迟、性能、效率、变更管理、监控、紧急响应和跨多个区域的容量规划。这包括在新区域(如亚洲、欧洲和拉丁美洲)实施和支持人工智能基础设施,以支持我们业务的增长。参与平衡的值班轮换,为服务提供24/7支持。
值班与工作生活平衡
我们相信可持续的值班时间表对于长期成功和团队健康至关重要。我们的值班理念基于以下原则:
• 平衡轮换:值班轮换在团队中平均分配,通常遵循主要/次要(跟随太阳)模式,以确保没有人承担不成比例的负担。
• 预防为主:我们在自动化、稳健测试和系统设计上投入大量资源,以防止页面问题发生。值班的目标不是英勇地扑灭火灾,而是管理罕见、复杂的故障,并利用这些经验教训使系统更具弹性。
• 可操作的警报:我们严格反对警报疲劳。警报必须是可操作的,并需要立即进行人工干预。
• 事件管理:领导对影响推理服务的事件的响应,推动无责后期分析并实施纠正措施以防止重发。
• 监控与警报:开发和维护高级监控、警报和仪表板(使用Prometheus、Grafana、Datadog等工具)以深入了解服务健康状况、模型性能(如延迟、吞吐量、错误率)和加速器利用率。关键责任是确保警报可操作并具有低误报率,最大限度地减少值班疲劳。
• 性能与可扩展性:主动识别和消除性能瓶颈。设计和实施自动扩展策略,以经济高效地处理可变推理负载。利用值班事件的见解推动改进,以增强系统稳定性和可扩展性。
• 基础设施即代码(IaC):使用Terraform和Ansible等工具管理和发展我们的云基础设施(在AWS、GCP和/或Azure以及本地),确保其安全、可重复和可扩展。
• CI/CD与自动化:通过构建和改进CI/CD管道来推动自动化,以无缝和安全地部署新模型版本和服务更新。核心目标是自动化在值班期间识别的手动工作,减少未来的运营负担。
• 容量规划:根据产品路线图和使用趋势预测基础设施需求。与财务和工程团队合作管理云成本并优化支出。
• SLO与SLI:定义、测量和报告推理平台的服务水平目标(SLO)和指标(SLI),利用数据推动优先级和可靠性投资。
我们寻找的条件(必备条件)
• 计算机科学、工程或相关领域的学士学位,或同等的实际经验。
• 5-8年以上在站点可靠性工程师、DevOps或相关角色中支持大规模、面向客户的公共云环境(AWS、GCP、Azure)服务的经验。
• 熟练掌握Python、Go或Java等语言的编程/脚本技能。
• 具有容器化和编排技术(Docker、Kubernetes)的丰富经验。
• 深刻理解监控和可观测性原则和工具(如Prometheus、Grafana、ELK Stack、Datadog)。
• 具有基础设施即代码(如Terraform、CloudFormation)的扎实经验。
• 熟悉CI/CD原则和工具(如Jenkins、GitHub Actions、ArgoCD)。
• 优秀的问题解决能力和系统化的方法来排除复杂的分布式系统故障。
加分条件
• 在混合环境中连接云和本地/数据中心基础设施的经验。
• 在生产中支持ML/AI推理服务的直接经验。
• 熟悉GPU加速计算和优化NVIDIA GPU工作负载以映射到RDU的目的。
• 了解模型服务框架,如vLLM、SGLang或Ray。
• 理解MLOps原则和实践。
• 具有管理和调整数据库(SQL或NoSQL)和缓存系统(Redis、Memcached)的经验。
• 扎实的Linux/Unix系统管理基础。
为什么选择SambaNova?
• 巨大的影响力:您将成为一个关键平台的重要组成部分,具有高度的可见性,并对我们的产品和工程师产生直接影响。
• 尖端技术:与世界一流的团队合作,参与行业中最先进的人工智能技术栈之一。
• 自主与成长:我们信任您做出技术决策。这是一个从头开始构建非凡事物的绿地机会。
• 具有竞争力的薪酬:包括股权、优厚的福利和灵活的工作环境。
提交指南
请注意,要被视为SambaNova Systems任何职位的申请人,您必须为您认为自己有资格的每个职位提交申请表。
EEO政策
SambaNova Systems是一个平等机会/平权行动雇主。所有符合条件的申请人将不分年龄(40岁及以上)、肤色、残疾、性别认同、遗传信息、婚姻状况、军人或退伍军人身份、国籍/祖籍、种族、宗教、信仰、性别(包括怀孕、分娩、哺乳)、性取向以及任何其他受联邦、州或地方法律保护的适用身份而获得就业考虑。
美国全职就业职位的福利摘要
SambaNova提供具有竞争力的整体奖励套餐,包括基本工资、股权和福利。我们为员工的医疗保险提供95%的保费覆盖,为家属提供77%的保费覆盖,并提供雇主供款的健康储蓄账户(HSA)。我们还提供牙科、视力、短期/长期残疾、基本寿险、自愿寿险和意外死亡及伤残保险计划,以及灵活支出账户(FSA)选项,如医疗保健、有限用途和受抚养人护理。我们为您和您的家属提供的福利图书馆包括Headspace的完整订阅、Gympass+会员资格(可访问实体健身房)、One Medical会员资格、员工援助计划的咨询服务等。