站点可靠性工程师 SRE

迪拜 无个税2天前全职 网络
面议
我们正在寻找一名网站可靠性工程师,他将负责确保我们平台的可靠运行,通过使用指标来提高生产过程效率,并参与测试新产品版本。 职责: - 生产稳定性管理:确保持续符合外部监管要求和内部标准,包括风险安全技术和交易员需求。支持和自动化验证和监控流程,以遵循必要的标准。 - 事件监控与管理:开发和改进监控和警报系统,以检测关键生产指标中的异常。实施快速响应机制和高效解决方案,以保持策略性能。 - 发布与变更管理:执行管理发布和变更的标准,以最小化部署风险。对所有发布实施严格的验收测试。 - 流程管理:为团队开发和维护标准操作程序(SOP),管理任务队列,并组织轮班时间表,以确保持续支持和交易策略的高可用性。 - 集成项目:领导与新交易所、经纪商和交易平台的连接项目,确保服务的顺利和安全集成。 - 技术性能优化:不断提高系统可用性、弹性(MTTR MTBF)和延迟减少,同时优化数据交换性能和订单路由以最大化盈利。 资格: 要求: - 深刻理解交易流程和市场微观结构,包括在本地交易所协议上的共址交易和算法交易。 - 在高负载环境中监控警报系统和事件管理的经验。 - 了解合规和安全标准。 - 熟练使用监控和事件管理工具,如Grafana、ClickHouse、Prometheus、Opsgenie、Grafana OnCall、PagerDuty等。 - 具备为服务团队开发和管理SOP和KPI的经验。 - 具有与经纪商和交易所的集成项目管理经验。 强大的技术技能包括: - Linux系统管理和优化。 - TCP/UDP多播网络。 - 基于FIX和本地交易所协议。 - 共址基础设施的设置和管理。 - 使用Python脚本进行自动化和监控。 - 英语水平达到C1或更高。 远程工作: 是 雇佣类型: 全职