网站可靠性工程师(交易技术)

16个月前远程全职
kraken

kraken

location 伦敦
unsaved
要求 • 在SRE角色(DevOps、SRE等)中有4年以上的经验, • 有高性能、低延迟分布式系统的经验(尤其是金融领域), • 有Hashicorp Consul、Nomad、Vault及其PKI功能的经验, • 有监控/警报经验(主要使用Prometheus/Grafana),并了解该领域的最佳实践, • 有Bash、Python、YAML、配置和秘密管理的经验, • 有分布式系统和技术的经验 - gRPC和Kafka, • 有配置持续集成(CI)的经验, • 理解Unix/Linux操作系统、Shell脚本编写, • 了解DNS、SSL/TLS以及IP网络上的流量如何建立端到端的安全性和信任, • 理解TCP/IP和UDP等网络概念, • 有日志记录、监控、追踪(如Cloudwatch、Elasticsearch/Kibana(ELK))的经验, • (可取)熟悉Fix协议, • (可取)有Web Sockets和实时市场数据源的经验, • (可取)有Terraform、Kubernetes和Helm Charts的经验, • (可取)了解数字货币交易市场 工作内容 • 作为关键贡献者,您将独立工作,并与正式管理之外的利益相关者合作,确保我们核心交易生产基础设施的无缝运营、支持和安全性, • 从监控环境到使用Hashicorp Nomad进行发布管理,以及实施强大的度量、警报和监控系统,您将在团队的成功中扮演关键角色, • 您在改进开发者工具、构建Docker镜像和管理CI流水线方面的专业知识将有助于自动化质量测试,而您的分析能力将在识别和减轻潜在的停机风险方面起到关键作用, • 高度独立工作,与正式管理结构之外的多个利益相关者合作, • 负责核心交易服务的生产基础设施的运营、支持和安全性, • 监控和支持暂存和生产环境, • 使用Hashicorp Nomad管理发布, • 实施强大的度量、警报和监控交易基础设施, • 改进开发者工具,帮助构建Docker镜像,管理我们的持续集成(CI)流水线以实现自动化质量测试, • 分析潜在的停机风险并开发能够消除问题的系统, • 支持一个遍布多个时区的完全分布式团队