我们正在寻找一位网站可靠性工程师,他将负责确保我们平台的可靠运行,利用指标提高生产过程的效率,并参与测试新产品版本。
职责:
生产稳定性管理:确保持续符合外部监管要求和内部标准,包括风险、安全技术和交易员需求。支持和自动化验证和监控流程,以遵循必要的标准。
事件监控与管理:开发和改进监控和警报系统,以检测关键生产指标中的异常。实施快速响应机制和高效解决方案,以保持策略性能。
发布与变更管理:执行管理发布和变更的标准,以最小化部署风险。对所有发布实施严格的验收测试。
流程管理:为团队开发和维护标准操作程序(SOP),管理任务队列,组织轮班时间表,以确保持续支持和交易策略的高可用性。
集成项目:领导与新交易所、经纪商和交易平台的连接项目,确保服务的平稳和安全集成。
技术性能优化:不断提高系统可用性、弹性(MTTR、MTBF)和延迟减少,同时优化数据交换性能和订单路由,以最大化盈利能力。
资格:
要求:
深入了解交易流程和市场微结构,包括在本地交易所协议上的共址交易和算法交易。在高负载环境中具有监控、警报系统和事件管理经验。了解合规和安全标准。熟练使用监控和事件管理工具,如Grafana、ClickHouse、Prometheus、Opsgenie、Grafana OnCall、PagerDuty等。具有为服务团队开发和管理SOP和KPI的经验。具有与经纪商和交易所的集成项目管理经验。强大的技术技能,包括:
Linux系统管理和优化。TCP/UDP多播网络。基于FIX和本地交易所协议。共址基础设施设置和管理。Python脚本用于自动化和监控。英语水平达到C1或更高。
远程工作:
是
就业类型:
全职