要求
• 在SRE角色(DevOps、SRE等)中有4年以上的经验,
• 有高性能、低延迟分布式系统的经验(尤其是金融领域),
• 有Hashicorp Consul、Nomad、Vault及其PKI功能的经验,
• 有监控/警报经验(主要使用Prometheus/Grafana),并了解该领域的最佳实践,
• 有Bash、Python、YAML、配置和秘密管理的经验,
• 有分布式系统和技术的经验 - gRPC和Kafka,
• 有配置持续集成(CI)的经验,
• 理解Unix/Linux操作系统、Shell脚本编写,
• 了解DNS、SSL/TLS以及IP网络上的流量如何建立端到端的安全性和信任,
• 理解TCP/IP和UDP等网络概念,
• 有日志记录、监控、追踪(如Cloudwatch、Elasticsearch/Kibana(ELK))的经验,
• (可取)熟悉Fix协议,
• (可取)有Web Sockets和实时市场数据源的经验,
• (可取)有Terraform、Kubernetes和Helm Charts的经验,
• (可取)了解数字货币交易市场
工作内容
• 作为关键贡献者,您将独立工作,并与正式管理之外的利益相关者合作,确保我们核心交易生产基础设施的无缝运营、支持和安全性,
• 从监控环境到使用Hashicorp Nomad进行发布管理,以及实施强大的度量、警报和监控系统,您将在团队的成功中扮演关键角色,
• 您在改进开发者工具、构建Docker镜像和管理CI流水线方面的专业知识将有助于自动化质量测试,而您的分析能力将在识别和减轻潜在的停机风险方面起到关键作用,
• 高度独立工作,与正式管理结构之外的多个利益相关者合作,
• 负责核心交易服务的生产基础设施的运营、支持和安全性,
• 监控和支持暂存和生产环境,
• 使用Hashicorp Nomad管理发布,
• 实施强大的度量、警报和监控交易基础设施,
• 改进开发者工具,帮助构建Docker镜像,管理我们的持续集成(CI)流水线以实现自动化质量测试,
• 分析潜在的停机风险并开发能够消除问题的系统,
• 支持一个遍布多个时区的完全分布式团队