架构师专家 AI 基础设施 GPU

无个税15个月前全职
Oracle

Oracle

location 迪拜
unsaved
- 在Oracle Cloud中设计、部署和优化AI基础架构解决方案,重点关注GPU加速的工作负载,并结合在金融服务业、医疗保健、政府或高科技/初创企业等领域流行的合作伙伴和开源解决方案。 - 与多功能技术团队合作,设计可扩展和高效的AI / ML架构。 - 提供基于GPU的解决方案的技术专业知识和支持,包括性能调优和基准测试。 - 通过技术演示、概念验证(PoC)和解决方案支持加速与新客户和现有客户的机会。 这涉及到在关注特定行业的合作伙伴和开源解决方案的同时推动价值和创新。 - 研究和评估AI基础架构和GPU计算中的新兴技术和标准流程,推动持续改进。 - 熟练地创建简洁而有说服力的书面资料,包括外部出版物和内部文档,特别关注我们的开源和合作伙伴解决方案、基准测试和在Oracle Cloud上运行AI工作负载的标准流程。 所需技能/经验 - 在计算机科学、工程或相关领域拥有学士或更高学位的8年以上解决方案工程经验。 - 在云环境中设计、实施和优化AI基础架构解决方案的实际经验,重点关注上述行业中的GPU工作负载。 - 对网络、数据中心拓扑、路由和交换协议以及以太网/InfiniBand的高级实际知识。 - 对服务器架构、PCIe设备、NICs、Linux操作系统和内核驱动程序有系统级的理解。具备DevOps / MLOps技术(如Docker /容器、Kubernetes、数据中心计算/网络/存储部署)的经验。 - 熟练掌握Oracle Cloud、AWS、Azure或Google Cloud Platform等云平台,包括与AI和GPU计算相关的服务。 - 对GPU架构、CUDA编程和并行计算原理有深入了解。熟悉AI框架和库(如TensorFlow、PyTorch、scikit-learn)。 - 在规模部署AI模型方面有经验,例如基于Transformer的NLP模型、基于图的深度学习模型和/或几何深度学习模型。 - 在GPU加速云环境中部署计算机视觉、推荐系统、医学成像、药物发现、基因组学、预测分析、金融建模或HPC等应用案例的经验。 - 出色的解决问题能力,能够解决云环境中复杂的技术问题,并具备与非技术关键利益相关者合作和传达技术概念的有效沟通能力。 - 云计算(如Oracle Cloud Infrastructure Architect Associate,AWS Certified Solutions Architect,Azure Solutions Architect)和GPU计算(如NVIDIA Certified Associate AI in the Data Center)的认证是一个加分项。 - 具备开源开发背景,熟练掌握系统工程、编码(C / C ++,Python,CUDA)。 - 具有NVIDIA系统/ SDK(如Triton Inference Server)、NVIDIA网络技术(如DPU、RoCE、InfiniBand)和/或AMD GPU解决方案的实际经验。 - 有相关的出版历史和/或会议参与经验。偶尔需要出差,进行客户现场访问和行业活动。 与战略客户合作,建立组织内多个层级的领导关系,以设计和实施解决方案。 直接与客户合作,收集需求,开发架构并将业务需求转化为解决方案。 可能通过代码开发和脚本编写来实施解决方案,并确保成功部署。通过高度定制的演示向客户、会议和活动展示产品/应用程序的理解。 通过资源配置、规划和客户教育/培训,支持从概念验证(POC)到服务生产部署的客户。 创建和分发技术资产(白皮书、解决方案代码、博客文章和视频演示)。作为客户和销售在技术云解决方案和客户成功方面的主要贡献者。 识别差距和增强点,影响面向客户的功能的工程路线图。作为主要贡献者,可能为他人提供指导和辅导。 工作是非例行的和非常复杂的,涉及在专业领域应用高级技术/业务技能。可能与高层管理层互动。通过保持对新兴技术的了解来保持专业知识。