职位描述
客户正在构建一个边缘(80%)和云(20%)应用程序,以安全地自动化和优化井施工过程。关于产品 - DrillOps 的更多信息,请访问我们的网站。
团队位于美国、中国、法国和乔治亚州。
SRE 使命
为现代运营构建基础。通过使用现有的监控系统,SRE 将分析设计并提出改进环境监控的方法,包括需要监控的正确和错误的内容及其原因。SRE 需要解决的问题是使云中每个边缘部署的当前状态(系统健康、SLI、性能)可用。SRE 应能够识别在生产/测试环境中出现的产品问题,并创建自动化(尽可能多)解决方案来修复问题,以保持事件管理的可持续性。
职责
- 负责维护/改进产品监控系统
- 事件响应管理(故障排除、解决方案、文档、事后分析)
- 分享经验教训
- 成为运营与开发之间的桥梁
关键要求
具有现有 SRE 经验的工程师 - 大多数 SRE 都有云产品背景,我们的重点是边缘。
经验要求
- 从零开始构建解决方案
- 编写代码以自动化流程(日志分析、测试生产环境、警报自动化)
- 在云服务提供商方面的专业知识
工具
事件管理/待命:PagerDuty
日志记录:ELK/Kibana,SEQ 日志
编程语言:Python,C#,脚本
数据库:SQL,Mongo
网络:基本网络知识(入站/出站和防火墙规则)
监控:Prometheus,Grafana
项目管理和问题跟踪:AzureDevOps,Wiki
源代码管理:Git
基础设施和编排:SaltStack,Docker,Zededa