可观测性和基础设施即代码工程师

圣弗朗西斯科 9天前全职 网络
1.6K - 3.5K / 年
您将成为的一部分团队 全球信息系统 您将产生的影响 我们正在寻找一位具有前瞻性思维的可观测性和基础设施即代码(IaC)工程师,以领导我们下一代云原生平台的自动化和仪器化。您不仅要管理工具,还要构建一个支持分布式追踪、AIOps和实时性能分析的集成“代码即可观测性”生态系统。您将负责设计管道,以摄取、处理和可视化我们服务的健康状况。您的使命是提供对系统行为的深度实时洞察,减少故障排除所花费的时间。 IaC工程师负责基础设施生命周期管理的端到端自动化。您将构建“黄金路径”,使开发团队能够自行配置安全、合规且可扩展的资源。您的目标是确保基础设施可重现、对灾难具有弹性,并集成到现代CI/CD管道中。 您的工作内容 可观测性 • 设计和实施强大的管道,从各种云原生来源收集和汇总遥测数据(日志、指标、事件和追踪)。 • 配置AI驱动的异常检测,超越静态阈值,使系统能够在触发关键故障之前识别异常行为。 • 与软件团队合作,将自动化仪器库集成到CI/CD管道中,确保每个新服务“默认可观测”。 • 通过IaC自动化部署仪表板、警报规则和服务水平目标(SLO)跟踪,以确保开发、测试和生产环境的一致可见性。 • 利用AI驱动的操作(AIOps)和分布式追踪,减少平均修复时间(MTTR),并引导复杂跨功能系统故障的根本原因分析。 • 监控安全事件日志(例如,流日志、防火墙日志)以识别漏洞,并确保系统符合法律法规。 基础设施即代码 • 使用Terraform、OpenTofu或Pulumi等工具自动化监控工具、仪表板和警报策略的配置和部署。 • 使用行业标准工具(Spacelift/HCP Terraform)设计和管理自动化部署管道。 • 建立持续对账系统,自动检测并纠正对基础设施的未经授权更改,保持预期状态无需人工干预。 • 将安全策略、静态加密要求和合规扫描直接嵌入IaC模板中,以强制执行“默认安全”。 • 使用云无关工具在AWS和Azure之间协调一致的环境,以防止供应商锁定并优化高可用性。 • 为基础设施更改编写和自动化单元和集成测试,以防止破坏生产环境。 我们寻找的人 • 具有计算机科学工程或相关领域学士学位及12年以上相关经验。 • 精通AWS和Azure,包括网络拓扑、IAM和无服务器架构。 • 具备实施云原生可观测性解决方案的实践经验。 • 熟练掌握Prometheus、Grafana、OpenTelemetry、ELK/Splunk,以及Datadog、New Relic或Dynatrace等现代平台。 • 精通Terraform/OpenTofu、Pulumi(用于编程基础设施即代码)。 • 精通OpenTelemetry(OTel)和W3C追踪上下文。 • 熟练使用Go、Python或Bash构建自定义自动化脚本和CLI工具。 • 使用AI辅助工具进行代码生成和基础设施成本/性能优化的经验。 优先资格 • 计算机科学工程或相关领域的学士/硕士学位。 • Azure、AWS、DevOps或Terraform认证。 • 在大型企业环境中的经验。 我们的承诺 我们相信每个人都应该感到被重视、被包容,并有能力实现其全部潜力。通过将独特的个人和观点结合在一起,我们实现了非凡的成果。 Lam Research(“Lam”或“公司”)是一个平等机会的雇主。Lam致力于并重申支持在就业中提供平等机会,并在就业政策、实践和程序中不因种族、宗教信仰、肤色、国籍、祖籍、身体残疾、精神残疾、健康状况、遗传信息、婚姻状况、性别(包括怀孕、分娩及相关医疗状况)、性别认同、性别表达、年龄、性取向或军事和退伍军人身份或任何其他受适用联邦、州或地方法律保护的类别而歧视。公司的意图是遵守所有适用的法律法规。公司政策禁止对申请人或员工进行非法歧视。 Lam根据每个角色的需求提供多种工作地点模式。我们的混合角色结合了与同事现场合作的好处和远程工作的灵活性,分为两类——现场灵活和虚拟灵活。“现场灵活”意味着您每周将在Lam或客户/供应商地点工作3天以上,并有机会在本周剩余时间远程工作。“虚拟灵活”意味着您每周将在Lam或客户/供应商地点工作1-2天,其余时间远程工作。 薪资 加州旧金山湾区该职位的薪资范围:$114,000.00 - $253,000.00。 上述薪资范围仅适用于居住或在加州旧金山湾区现场工作的申请人。薪资报价将取决于您工作的地点、您的级别、教育、培训、具体技能、工作经验年限以及与该职位其他员工的比较。实际薪资可能会因多种因素而与报价不同,包括但不限于无薪休假、无薪假期、公司强制停工和其他相关因素。 我们的福利和待遇 在Lam,我们的人才成就了非凡的事情。这就是为什么我们在您生活的各个阶段投资于您,提供一整套卓越的福利。