钻井操作 - SRE 工程师

休斯敦 8天前全职 网络
70.7万 - 91.9万 / 年
职位描述 客户正在构建一个边缘(80%)和云(20%)应用程序,以安全地自动化和优化井施工过程。关于产品 - DrillOps 的更多信息,请访问我们的网站。 团队位于美国、中国、法国和乔治亚州。 SRE 使命 为现代运营构建基础。通过使用现有的监控系统,SRE 将分析设计并提出改进环境监控的方法,包括需要监控的正确和错误的内容及其原因。SRE 需要解决的问题是使云中每个边缘部署的当前状态(系统健康、SLI、性能)可用。SRE 应能够识别在生产/测试环境中出现的产品问题,并创建自动化(尽可能多)解决方案来修复问题,以保持事件管理的可持续性。 职责 - 负责维护/改进产品监控系统 - 事件响应管理(故障排除、解决方案、文档、事后分析) - 分享经验教训 - 成为运营与开发之间的桥梁 关键要求 具有现有 SRE 经验的工程师 - 大多数 SRE 都有云产品背景,我们的重点是边缘。 经验要求 - 从零开始构建解决方案 - 编写代码以自动化流程(日志分析、测试生产环境、警报自动化) - 在云服务提供商方面的专业知识 工具 事件管理/待命:PagerDuty 日志记录:ELK/Kibana,SEQ 日志 编程语言:Python,C#,脚本 数据库:SQL,Mongo 网络:基本网络知识(入站/出站和防火墙规则) 监控:Prometheus,Grafana 项目管理和问题跟踪:AzureDevOps,Wiki 源代码管理:Git 基础设施和编排:SaltStack,Docker,Zededa