职位:高级软件工程师,平台(SRE)
地点:安大略省西南部
平台/网站可靠性工程师(SRE)
我们的客户正在通过尖端技术改变行业。他们的平台利用人工智能、自动化和可扩展系统来解决复杂的现实问题。
作为平台/网站可靠性工程师(SRE),您将在建立和增强工程平台方面发挥关键作用。您将帮助确保我们系统的可靠性、可扩展性和效率,同时开发提高工程生产力的工具。
您将帮助定义和制定平台策略,设定最佳实践,并推动提升开发者体验、系统性能和运营效率的举措。
您的工作内容
• Dev Ops & 基础设施:
设计、实施和维护可扩展的基础设施以支持工程需求。
• CI/CD 优化:
使用 AWS CDK 改善持续集成和部署管道,包括部署和数据库迁移工具的需求。
• 发布跟踪与部署:
建立发布周期的可见性,实施自动化以简化部署,确保顺利推出。
• 网站可靠性与可观测性:
实施监控、日志记录和警报系统,以确保高可用性和性能。
• 内部工具:
构建和维护提高开发者效率的工具,自动化重复任务,并提高生产力。
• 安全与合规:
确保基础设施和部署符合安全最佳实践,关注 SoC、ISO 和 GDPR 标准。
经验
• 7年以上技术经验,其中5年以上担任SRE或类似角色。创业公司经验是加分项。
• 深厚的 AWS 专业知识,包括 Fargate 和 Kubernetes 容器编排。
• 丰富的 CI/CD 管道经验,特别是使用 AWS CDK。
• 熟练使用可观测性工具(Datadog、Prometheus、Grafana)。
• 对扩展策略和高可用性架构有深入了解。
• 熟练使用 Python、Bash 或 Type Script 进行脚本编写/自动化。
• 熟悉安全最佳实践和合规框架(SoC、ISO、GDPR)。
• 强大的协作能力和跨职能工作的能力。
我们的技术栈
• 基础设施:AWS、Fargate、Redis、PostgreSQL、SQS、CDK、GitHub、Retool
• 后端:Django REST 框架、Celery
• 前端:Next.js、Tailwind CSS
• LLM 集成:OpenAI、Claude、AWS Bedrock
#J-18808-Ljbffr