我们的愿景
在EarthDaily Analytics(EDA),我们努力通过创造创新解决方案来建设一个更可持续的星球,这些解决方案结合了地球卫星图像、现代软件工程、机器学习和云计算,以解决农业、能源和采矿、保险和风险缓解、野火和森林情报、碳捕获验证等领域的最艰难挑战。
EDA的标志性地球观测任务——EarthDaily星座(EDC)目前正在建设中。EDC将成为有史以来最强大的全球变化检测和监测系统,能够生成前所未有的预测分析和见解。它将与EarthPipeline数据处理系统结合,每天提供前所未有的科学级全球数据,使EDA能够满足各行业日益增长的需求。
我们的团队
我们的全球企业团队代表着各种业务线,由业务发展、销售、市场营销和支持专业人员、数据科学家、软件工程师、项目经理以及财务、人力资源和IT专业人员组成。我们的Earth Insights团队灵活且协作,为了推出EDC的前沿和颠覆性产品,我们目前正在寻找一位经验丰富的高级HPC云工程师加入我们的团队!
准备好发射了吗?
您是否想为全球变化检测/监测前沿的最令人兴奋的太空公司之一工作,设计、构建和优化AWS和其他超大规模计算平台上的高性能计算基础设施?理想的候选人将拥有云工程、HPC工程、DevOps、Python开发、AWS云架构、容器化技术和编排以及数据库设计的经验,以支持大规模计算密集型工作负载。
准备迎接冲击!
作为关键技术领导者,向EarthInsights产品管理总监汇报,您将架构云原生解决方案,将传统HPC范式与现代DevOps实践结合,使我们的组织能够利用弹性云资源进行复杂的模拟、数据处理和科学计算。您将负责扩展我们现有的基础设施,同时解决跨多个云提供商的分布式计算集群中的关键问题。该角色要求在HPC技术方面具备深厚的技术专长,并具备跨全栈工作的多功能性——从低级计算调试到高级应用开发。您将远程工作,具有高度自主性,推动基础设施创新,优化资源利用,并实施直接影响我们计算能力和运营效率的最佳实践。您的工作将对加速产品开发、向客户交付高价值数据、降低基础设施成本以及确保我们的HPC平台保持可靠和高效起到关键作用。
职责:
云基础设施和HPC管理
• 使用包括AWS ParallelCluster、AWS Batch、EC2、ECS、ECR、Lambda和托管数据库在内的服务,在AWS上设计、架构和部署可扩展的高性能计算(HPC)解决方案。
• 配置和优化HPC作业调度程序(Slurm、PBS),以在云计算集群中进行资源分配、作业调度和工作负载管理。
• 创建和管理高性能计算应用的资源预留策略,以优化成本和性能。
• 解决AWS HPC集群中的复杂问题,包括性能瓶颈、作业失败和基础设施不稳定。
• 优化HPC资源预留脚本和自动化工作流程,以提高集群效率并减少运营开销。
应用开发与自动化
• 使用AWS PaaS服务构建和维护云原生应用,与计算、存储和数据库解决方案集成。
• 使用AWS Lambda开发无服务器函数,以自动化工作流程、处理事件和编排云资源。
• 通过迁移到云原生调度器(包括Lambda、ECS计划任务和EventBridge)来现代化基于cron的任务调度。
容器化与部署
• 使用Docker创建、优化和维护容器化应用,以便在云环境中部署。
• 使用Amazon ECS(弹性容器服务)和ECR(弹性容器注册表)部署和管理容器工作负载。
• 实施批处理和长时间运行服务的容器编排策略。
• 构建和维护针对HPC工作负载优化的容器镜像。
多云与迁移工程
• 设计和执行从AWS到提供商无关的HPC云平台的机器镜像复制和迁移策略。
• 确保工作负载在异构云环境中的可移植性,同时保持性能特征。
• 开发支持多云部署的基础设施即代码解决方案。
数据工程与数据库管理
• 为最佳性能、可扩展性和数据完整性架构数据库模式。
• 在各种AWS数据库服务(S3、RDS、Aurora、DynamoDB、Redshift)中创建和维护数据库和表。
• 设计和实施数据摄取管道,以处理HPC模拟和应用的输出文件。
• 开发自动化ETL工作流程,以转换、验证和加载来自不同来源的数据。
• 创建生成结构化数据文件的Python脚本,以便进行下游分析和报告。
DevOps、MLOps与可观测性
• 使用CloudWatch、X-Ray和第三方APM工具实施全面的监控、日志记录和警报解决方案。
• 为基础设施和应用部署构建和维护CI/CD管道。
• 开发工具以监控应用性能、可追溯性和生产环境中的调试。
• 使用Terraform、CloudFormation或AWS CDK实施基础设施即代码。
其他职责视情况而定
您的过往任务
• 计算机科学、计算机工程、计算科学、数据科学或相关技术领域的学士学位
• (优先)计算机科学、高性能计算、分布式系统或相关技术领域的硕士学位
• (优先)相关AWS认证(解决方案架构师专业、DevOps工程师专业、高级网络)
• 7-10年云工程、HPC工程、DevOps或相关角色的专业经验
• 5年以上Python开发经验,用于自动化、脚本和应用开发
• 5年以上AWS服务和云架构的实际操作经验
• 3年以上管理HPC集群和作业调度程序(Slurm、PBS、SGE或类似)的经验
• 具有容器化技术(Docker)和容器编排(ECS、Kubernetes)的经验
• 具有数据库设计、模式架构和数据管道开发的经验
• 具有解决复杂分布式系统和基础设施问题的经验
加分项:
• 具有多云环境(AWS、Azure、GCP)和云迁移项目的经验
• 具有计算科学、科学计算或工程模拟工作负载背景
• 熟悉数值计算、并行计算概念和HPC应用优化
您的工具包
核心技术技能(必需):
• AWS服务:EC2、ECS、ECR、Lambda、S3、RDS、Aurora、VPC、IAM、CloudWatch、ParallelCluster、Batch
• HPC技术:Slurm、PBS、AWS ParallelCluster、作业调度、资源管理、集群配置
• 编程与脚本:Python(高级)、Bash、SQL
• 容器化:Docker、Amazon ECS、ECR、容器优化
• 数据库技术:关系数据库(PostgreSQL、MySQL)、模式设计、查询优化、数据建模
• Linux/Unix:系统管理、性能调优、shell脚本
• 基础设施即代码:Terraform、CloudFormation或AWS CDK
• 版本控制:Git、GitHub/GitLab/Bitbucket
• 网络:VPC设计、安全组、负载均衡器、DNS
附加技术技能(高度重视):
• 云调度器:EventBridge、Step Functions、ECS计划任务
• 数据工程:ETL管道、数据转换、Apache Airflow、AWS Glue
• 监控与可观测性:CloudWatch、X-Ray、Datadog、Prometheus、Grafana
• CI/CD:Jenkins、GitLab CI、GitHub Actions、AWS CodePipeline
• 其他语言:Go、Java或用于HPC应用的编译语言
• 多云平台:Azure(Azure CycleCloud)、GCP(Cloud HPC Toolkit)
• 存储系统:Lustre、EFS、FSx、并行文件系统
问题解决与分析:
• 复杂分布式系统的高级故障排除和根本原因分析
• HPC工作负载的性能分析和优化
• 云基础设施的容量规划和成本优化
软技能:
• 积极主动的自我启动者,能够主动识别和解决全栈中的改进机会。
• 针对技术和非技术受众的强大书面和口头沟通能力
• 能够在远程环境中独立工作,监督最少
• 跨职能团队参与的协作思维
• 适应快速变化的技术和业务需求
我们的空间(包括旅行)
我们很乐意欢迎您加入EarthInsights团队,这个完全远程的机会对在美国和加拿大工作的人开放。敏捷软件开发,日常站会和每周Scrum节奏,在快节奏的环境中需要快速适应时间敏感的交付。
我们的工作环境充满乐趣、快节奏和令人兴奋,我们将地球智能(可持续生活)、创造力和创新、积极沟通、多样性和责任感作为核心价值观。就像太空探索一样,我们不断发展和突破新的界限。
工作时间通常在周一至周五中部时间上午9:00至下午5:00之间,期间需要与其他时区的团队成员进行定期交叉工作,并偶尔进行晚间和周末工作。团队成员需要在此期间每天至少可用六(6)小时,以促进协作。
您的薪酬
基本工资范围:每年14万至18.5万加元。
上述范围取决于与工作相关的技能、经验、培训、教育、地点和业务需求。该范围基于温哥华为该职位的薪酬。只有当候选人具备在该职位范围内提升的经验、技能和专业知识时,我们才会考虑支付该职位范围的最高端。
为什么选择EarthDaily Analytics?
• 具有竞争力的薪酬和灵活的休假
• 成为北美最具创新性的太空公司之一的有意义使命的一部分,开发可持续的地球解决方案
• 优秀的工作环境和团队,总部位于加拿大温哥华和明尼苏达州明尼阿波利斯