高级HPC云工程师

温哥华 29天前全职 网络
71.9万 - 95万 / 年
我们的愿景 在EarthDaily Analytics(EDA),我们努力通过创造创新解决方案来建设一个更可持续的星球,这些解决方案结合了地球卫星图像、现代软件工程、机器学习和云计算,以解决农业、能源和采矿、保险和风险缓解、野火和森林情报、碳捕获验证等领域的最艰难挑战。 EDA的标志性地球观测任务——EarthDaily星座(EDC)目前正在建设中。EDC将成为有史以来最强大的全球变化检测和监测系统,能够生成前所未有的预测分析和见解。它将与EarthPipeline数据处理系统结合,每天提供前所未有的科学级全球数据,使EDA能够满足各行业日益增长的需求。 我们的团队 我们的全球企业团队代表着各种业务线,由业务发展、销售、市场营销和支持专业人员、数据科学家、软件工程师、项目经理以及财务、人力资源和IT专业人员组成。我们的Earth Insights团队灵活且协作,为了推出EDC的前沿和颠覆性产品,我们目前正在寻找一位经验丰富的高级HPC云工程师加入我们的团队! 准备好发射了吗? 您是否想为全球变化检测/监测前沿的最令人兴奋的太空公司之一工作,设计、构建和优化AWS和其他超大规模计算平台上的高性能计算基础设施?理想的候选人将拥有云工程、HPC工程、DevOps、Python开发、AWS云架构、容器化技术和编排以及数据库设计的经验,以支持大规模计算密集型工作负载。 准备迎接冲击! 作为关键技术领导者,向EarthInsights产品管理总监汇报,您将架构云原生解决方案,将传统HPC范式与现代DevOps实践结合,使我们的组织能够利用弹性云资源进行复杂的模拟、数据处理和科学计算。您将负责扩展我们现有的基础设施,同时解决跨多个云提供商的分布式计算集群中的关键问题。该角色要求在HPC技术方面具备深厚的技术专长,并具备跨全栈工作的多功能性——从低级计算调试到高级应用开发。您将远程工作,具有高度自主性,推动基础设施创新,优化资源利用,并实施直接影响我们计算能力和运营效率的最佳实践。您的工作将对加速产品开发、向客户交付高价值数据、降低基础设施成本以及确保我们的HPC平台保持可靠和高效起到关键作用。 职责: 云基础设施和HPC管理 • 使用包括AWS ParallelCluster、AWS Batch、EC2、ECS、ECR、Lambda和托管数据库在内的服务,在AWS上设计、架构和部署可扩展的高性能计算(HPC)解决方案。 • 配置和优化HPC作业调度程序(Slurm、PBS),以在云计算集群中进行资源分配、作业调度和工作负载管理。 • 创建和管理高性能计算应用的资源预留策略,以优化成本和性能。 • 解决AWS HPC集群中的复杂问题,包括性能瓶颈、作业失败和基础设施不稳定。 • 优化HPC资源预留脚本和自动化工作流程,以提高集群效率并减少运营开销。 应用开发与自动化 • 使用AWS PaaS服务构建和维护云原生应用,与计算、存储和数据库解决方案集成。 • 使用AWS Lambda开发无服务器函数,以自动化工作流程、处理事件和编排云资源。 • 通过迁移到云原生调度器(包括Lambda、ECS计划任务和EventBridge)来现代化基于cron的任务调度。 容器化与部署 • 使用Docker创建、优化和维护容器化应用,以便在云环境中部署。 • 使用Amazon ECS(弹性容器服务)和ECR(弹性容器注册表)部署和管理容器工作负载。 • 实施批处理和长时间运行服务的容器编排策略。 • 构建和维护针对HPC工作负载优化的容器镜像。 多云与迁移工程 • 设计和执行从AWS到提供商无关的HPC云平台的机器镜像复制和迁移策略。 • 确保工作负载在异构云环境中的可移植性,同时保持性能特征。 • 开发支持多云部署的基础设施即代码解决方案。 数据工程与数据库管理 • 为最佳性能、可扩展性和数据完整性架构数据库模式。 • 在各种AWS数据库服务(S3、RDS、Aurora、DynamoDB、Redshift)中创建和维护数据库和表。 • 设计和实施数据摄取管道,以处理HPC模拟和应用的输出文件。 • 开发自动化ETL工作流程,以转换、验证和加载来自不同来源的数据。 • 创建生成结构化数据文件的Python脚本,以便进行下游分析和报告。 DevOps、MLOps与可观测性 • 使用CloudWatch、X-Ray和第三方APM工具实施全面的监控、日志记录和警报解决方案。 • 为基础设施和应用部署构建和维护CI/CD管道。 • 开发工具以监控应用性能、可追溯性和生产环境中的调试。 • 使用Terraform、CloudFormation或AWS CDK实施基础设施即代码。 其他职责视情况而定 您的过往任务 • 计算机科学、计算机工程、计算科学、数据科学或相关技术领域的学士学位 • (优先)计算机科学、高性能计算、分布式系统或相关技术领域的硕士学位 • (优先)相关AWS认证(解决方案架构师专业、DevOps工程师专业、高级网络) • 7-10年云工程、HPC工程、DevOps或相关角色的专业经验 • 5年以上Python开发经验,用于自动化、脚本和应用开发 • 5年以上AWS服务和云架构的实际操作经验 • 3年以上管理HPC集群和作业调度程序(Slurm、PBS、SGE或类似)的经验 • 具有容器化技术(Docker)和容器编排(ECS、Kubernetes)的经验 • 具有数据库设计、模式架构和数据管道开发的经验 • 具有解决复杂分布式系统和基础设施问题的经验 加分项: • 具有多云环境(AWS、Azure、GCP)和云迁移项目的经验 • 具有计算科学、科学计算或工程模拟工作负载背景 • 熟悉数值计算、并行计算概念和HPC应用优化 您的工具包 核心技术技能(必需): • AWS服务:EC2、ECS、ECR、Lambda、S3、RDS、Aurora、VPC、IAM、CloudWatch、ParallelCluster、Batch • HPC技术:Slurm、PBS、AWS ParallelCluster、作业调度、资源管理、集群配置 • 编程与脚本:Python(高级)、Bash、SQL • 容器化:Docker、Amazon ECS、ECR、容器优化 • 数据库技术:关系数据库(PostgreSQL、MySQL)、模式设计、查询优化、数据建模 • Linux/Unix:系统管理、性能调优、shell脚本 • 基础设施即代码:Terraform、CloudFormation或AWS CDK • 版本控制:Git、GitHub/GitLab/Bitbucket • 网络:VPC设计、安全组、负载均衡器、DNS 附加技术技能(高度重视): • 云调度器:EventBridge、Step Functions、ECS计划任务 • 数据工程:ETL管道、数据转换、Apache Airflow、AWS Glue • 监控与可观测性:CloudWatch、X-Ray、Datadog、Prometheus、Grafana • CI/CD:Jenkins、GitLab CI、GitHub Actions、AWS CodePipeline • 其他语言:Go、Java或用于HPC应用的编译语言 • 多云平台:Azure(Azure CycleCloud)、GCP(Cloud HPC Toolkit) • 存储系统:Lustre、EFS、FSx、并行文件系统 问题解决与分析: • 复杂分布式系统的高级故障排除和根本原因分析 • HPC工作负载的性能分析和优化 • 云基础设施的容量规划和成本优化 软技能: • 积极主动的自我启动者,能够主动识别和解决全栈中的改进机会。 • 针对技术和非技术受众的强大书面和口头沟通能力 • 能够在远程环境中独立工作,监督最少 • 跨职能团队参与的协作思维 • 适应快速变化的技术和业务需求 我们的空间(包括旅行) 我们很乐意欢迎您加入EarthInsights团队,这个完全远程的机会对在美国和加拿大工作的人开放。敏捷软件开发,日常站会和每周Scrum节奏,在快节奏的环境中需要快速适应时间敏感的交付。 我们的工作环境充满乐趣、快节奏和令人兴奋,我们将地球智能(可持续生活)、创造力和创新、积极沟通、多样性和责任感作为核心价值观。就像太空探索一样,我们不断发展和突破新的界限。 工作时间通常在周一至周五中部时间上午9:00至下午5:00之间,期间需要与其他时区的团队成员进行定期交叉工作,并偶尔进行晚间和周末工作。团队成员需要在此期间每天至少可用六(6)小时,以促进协作。 您的薪酬 基本工资范围:每年14万至18.5万加元。 上述范围取决于与工作相关的技能、经验、培训、教育、地点和业务需求。该范围基于温哥华为该职位的薪酬。只有当候选人具备在该职位范围内提升的经验、技能和专业知识时,我们才会考虑支付该职位范围的最高端。 为什么选择EarthDaily Analytics? • 具有竞争力的薪酬和灵活的休假 • 成为北美最具创新性的太空公司之一的有意义使命的一部分,开发可持续的地球解决方案 • 优秀的工作环境和团队,总部位于加拿大温哥华和明尼苏达州明尼阿波利斯