职责:
• 部署、监控、排除故障并维护 Web3 钱包生产环境。
• 管理和维护云基础设施,重点关注 AWS 以确保高可用性和可靠性,具备 GCP 和 Azure 经验者优先。
• 使用 Docker、Kubernetes/ECS/EKS 及相关工具配置和管理容器化环境,以进行集群管理和自动化部署。
• 使用 Prometheus、Grafana、Loki、Tempo、OpenTelemetry、Dozzle 和 CloudWatch 监控日志、性能和系统健康状况,主动检测和解决问题。
• 操作和维护区块链节点(以太坊、波场、自定义链),确保正常运行、同步和交易可靠性。
• 与开发团队合作,确保 CI/CD 流程的顺利执行。
• 优化后端和 API 的可靠性,包括健康检查、负载均衡、故障隔离和多端口服务故障排除。
• 使用 Apollo 和 AWS AppConfig 管理集中配置,实现无停机的动态更新。
• 使用 CI/CD 管道(GitHub Actions、TeamCity、Jenkins)、基础设施即代码(Terraform)和自动化服务恢复实施自动化和 DevOps 实践。
• 确保后端服务的操作安全性、安全的容器配置和密钥管理。
• 设计和维护网络和负载管理,包括端口映射、TCP 路由、API 网关、AWS ALB、自动扩展组和堡垒主机。
• 对影响容器、数据库或区块链节点的事件进行故障排除、根本原因分析、运行手册和事后分析。
• 定期进行灾难恢复演练和备份,以确保数据完整性和系统弹性。