• 在Oracle Cloud中设计、部署和优化AI基础设施解决方案,重点关注GPU加速工作负载,并结合在FSI、医疗保健、政府或高科技/初创企业等领域中流行的合作伙伴和开源解决方案。
• 与多功能技术团队合作,设计可扩展和高效的AI/ML架构。
• 提供基于GPU的解决方案的技术专业知识和支持,包括性能调优和基准测试。
• 通过技术演示、概念验证(PoC)和解决方案支持加速与新客户和现有客户的机会。这涉及到在关注特定行业的合作伙伴和开源解决方案的同时,推动价值和创新。
• 研究和评估AI基础设施和GPU计算领域的新兴技术和标准流程,推动持续改进。
• 熟练撰写优雅和有说服力的文档,包括外部出版物和内部文档,特别关注我们的开源和合作伙伴解决方案、基准测试和在Oracle Cloud上运行AI工作负载的标准流程。所需技能/经验
• 具备计算机科学、工程或相关领域的学士或更高学位,并具有8年以上的解决方案工程经验。
• 在云环境中设计、实施和优化AI基础设施解决方案的实践经验,重点关注上述领域中的GPU工作负载。
• 具备高级的网络、数据中心拓扑、路由和交换协议以及以太网/InfiniBand的实际知识。
• 具备服务器架构、PCIe设备、NICs、Linux操作系统和内核驱动程序的系统级理解。具备使用Docker/容器、Kubernetes、数据中心计算/网络/存储部署等DevOps/MLOps技术的经验。
• 熟练掌握Oracle Cloud、AWS、Azure或Google Cloud Platform等云平台,包括与AI和GPU计算相关的服务。
• 对GPU架构、CUDA编程和并行计算原理有深入理解。熟悉AI框架和库(例如TensorFlow、PyTorch、scikit-learn)。
• 在GPU加速的云环境中部署规模化的AI模型的经验,例如基于transformer的NLP模型、基于图的深度学习模型和/或几何深度学习模型。
• 在GPU加速的云环境中部署计算机视觉、推荐系统、医学成像、药物发现、基因组学、预测分析、金融建模或HPC等用例的经验。
• 出色的解决问题的能力,能够在基于云的环境中解决复杂的技术问题,并具备与非技术关键利益相关者合作和传达技术概念的有效沟通能力。
• 云计算(例如Oracle Cloud Infrastructure Architect Associate、AWS Certified Solutions Architect、Azure Solutions Architect)和GPU计算(例如NVIDIA Certified Associate - AI in the Data Center)的认证是一个加分项。
• 具备开源开发背景,熟练掌握系统工程、编码(C/C++、Python、CUDA)。
• 具备与NVIDIA系统/SDK(例如Triton Inference Server)、NVIDIA网络技术(例如DPU、RoCE、InfiniBand)和/或AMD GPU解决方案的实际经验。
• 有相关的出版历史和/或会议参与经验。偶尔需要出差,进行客户现场访问和行业活动。
与战略客户合作,建立组织内多个层级的领导关系,以设计和实施解决方案。直接与客户合作,收集需求,开发架构,并将业务需求转化为解决方案。可能通过代码开发和脚本编写来实施解决方案,并确保成功部署。通过高度定制的演示向客户、会议和活动展示产品/应用程序的理解。通过资源配置、规划和客户教育/培训,支持从概念验证(POC)到服务生产部署的客户。创建和分发技术资产(白皮书、解决方案代码、博客文章和视频演示)。作为技术云解决方案和客户成功方面的主要贡献者。识别差距和增强点,以影响面向客户的特点的工程路线图。作为主要贡献者,可能为其他人提供指导和辅导。工作是非常复杂和非常复杂的,涉及到在专业领域应用先进的技术/业务技能。可能与C级别互动。通过及时了解新兴技术来保持专业知识。