我们正在寻找一名初级生产支持工程师,在美国标准工作时间内为大型企业应用提供运营支持。这个角色非常适合那些职业生涯初期、渴望学习、注重细节并对在生产运营、事件管理和系统可靠性方面建立坚实基础感兴趣的人。工程师将主要专注于分类和解决生产支持票据、调查警报,并在本地和云环境中执行系统健康检查,资深工程师将提供指导和指导。
主要职责
· 作为接收生产支持票据的第一响应者,包括:
o 客户报告的问题和投诉
o 支持请求以识别和报告在特定时间段内是否发生过先前的事件或异常
o 关于系统可用性、性能和数据新鲜度的问题
· 分类、调查并在可能的情况下解决问题;向资深工程师或专业团队升级问题,并提供明确的诊断和影响评估。
· 监控企业系统和仪表板,包括:
o 微服务和API(延迟、错误率、可用性)
o 批处理作业、计划工作负载和ETL/数据管道(成功/失败、持续时间、SLA遵守)
o 服务器和容器健康状况(CPU、内存、磁盘、网络、容量趋势)
o 数据库健康和性能(可用性、复制、查询延迟、资源利用)
o 应用程序和基础设施日志记录,包括集中日志摄取、索引和搜索。
· 响应警报和报警,验证它们是否代表真实事件,并按照运行手册进行初步故障排除。
· 使用定义的检查清单执行手动操作检查,并记录签字以确认系统健康。
· 在调查和解决过程中,与支持团队、产品和工程团队以及基础设施团队进行清晰和专业的沟通。
· 维护准确的票据更新、事件时间线和班次交接笔记。
· 学习并贡献于随着时间的推移改进运行手册、知识库和监控覆盖范围。
资格
· 1-3年生产支持、NOC、帮助台、系统操作或相关技术支持角色的经验。
· 对企业应用和平台的基本了解(例如,服务器、Web服务和分布式应用、数据库和批处理/ETL工作流、云平台)
· 使用票务系统(例如,ServiceNow、Jira、Zendesk)并遵循事件管理流程的经验。
· 强烈的细节关注能力,能够准确地遵循运行手册、检查清单和升级程序。
· 出色的书面和口头沟通能力,能够清楚地向技术和非技术合作伙伴解释技术问题。
· 强大的问题解决思维方式和好奇心,能够从头到尾调查问题并向资深工程师学习。
· 熟悉监控和可观察性工具,如Grafana、Prometheus、Splunk、Datadog、AppDynamics或类似工具。
薪酬
$25/小时至$30/小时
具体薪酬可能因多种因素而异,包括技能、经验和教育背景。
此职位的福利套餐将在就业的第31天开始,包括医疗、牙科和视力保险,以及HSA、FSA和DCFSA账户选项,并提供雇主匹配的401k退休账户访问。担任此职位的员工还享有带薪病假和/或其他适用法律规定的带薪休假。