职责:
• 部署、监控、排除故障并维护Web3钱包生产环境。
• 管理和维护云基础设施,重点关注AWS,以确保高可用性和可靠性,具有GCP和Azure经验者优先。
• 使用Docker、Kubernetes/ECS/EKS和相关工具配置和管理容器化环境,以进行集群管理和自动化部署。
• 使用Prometheus、Grafana、Loki、Tempo、OpenTelemetry、Dozzle和CloudWatch监控日志、性能和系统健康状况,以主动检测和解决问题。
• 操作和维护区块链节点(以太坊、波场、自定义链),确保正常运行、同步和交易可靠性。
• 与开发团队合作,确保CI/CD流程的顺利执行。
• 优化后端和API的可靠性,包括健康检查、负载平衡、故障隔离和多端口服务故障排除。
• 使用Apollo和AWS AppConfig管理集中配置,实现动态更新而无需停机。
• 使用CI/CD管道(GitHub Actions、TeamCity、Jenkins)、基础设施即代码(Terraform)和自动化服务恢复实施自动化和DevOps实践。
• 确保后端服务的操作安全性、安全的容器配置和密钥管理。
• 设计和维护网络和负载管理,包括端口映射、TCP路由、API网关、AWS ALB、自动扩展组和堡垒主机。
• 对影响容器、数据库或区块链节点的事件进行故障排除、根本原因分析、运行手册和事后分析。
• 定期进行灾难恢复演练和备份,以确保数据完整性和系统弹性。