• 在Oracle Cloud中设计、部署和优化AI基础设施解决方案,重点关注GPU加速工作负载,并结合在金融服务、医疗保健、政府或高科技/初创企业等行业中流行的合作伙伴和开源解决方案。
• 与多功能技术团队合作,设计可扩展和高效的AI/ML架构。
• 提供基于GPU的解决方案的技术专业知识和支持,包括性能调优和基准测试。
• 通过技术演示、概念验证(PoC)和解决方案支持加速与新客户和现有客户的机会。这涉及到在关注行业特定的合作伙伴和开源解决方案的同时,推动价值和创新。
• 研究和评估AI基础设施和GPU计算领域的新兴技术和标准流程,推动持续改进。
• 熟练地创建简洁而引人入胜的书面资料,包括外部出版物和内部文档,特别关注我们在Oracle Cloud上运行AI工作负载的开源和合作伙伴解决方案、基准测试和标准流程。所需技能/经验
• 具有计算机科学、工程或相关领域的学士或更高学位的8年以上解决方案工程经验。
• 在云环境中设计、实施和优化AI基础设施解决方案的实际经验,重点关注上述行业中的GPU工作负载。
• 具有高级的网络知识,数据中心拓扑结构,路由和交换协议,以及以太网/InfiniBand的实际知识。
• 对服务器架构、PCIe设备、网卡、Linux操作系统和内核驱动程序有系统级的理解。具有DevOps/MLOps技术(如Docker/容器、Kubernetes、数据中心计算/网络/存储部署)的经验。
• 熟练掌握Oracle Cloud、AWS、Azure或Google Cloud Platform等云平台,包括与AI和GPU计算相关的服务。
• 对GPU架构、CUDA编程和并行计算原理有深入的理解。熟悉AI框架和库(如TensorFlow、PyTorch、scikit-learn)。
• 在GPU加速的云环境中部署规模化的AI模型的经验,例如基于Transformer的NLP模型、基于图的深度学习模型和/或几何深度学习模型。
• 在GPU加速的云环境中部署计算机视觉、推荐系统、医学成像、药物发现、基因组学、预测分析、金融建模或高性能计算等用例的经验。
• 出色的解决问题的能力,能够在基于云的环境中解决复杂的技术问题,并具有与非技术关键利益相关者合作和传达技术概念的有效沟通能力。
• 云计算(如Oracle Cloud Infrastructure Architect Associate、AWS Certified Solutions Architect、Azure Solutions Architect)和GPU计算(如NVIDIA Certified Associate - AI in the Data Center)的认证是一个加分项。
• 具有开源开发背景,熟练掌握系统工程、编码(C/C++、Python、CUDA)。
• 具有NVIDIA系统/SDK(如Triton Inference Server)、NVIDIA网络技术(如DPU、RoCE、InfiniBand)和/或AMD GPU解决方案的实际经验。
• 相关的出版历史和/或会议参与经验。偶尔需要出差,进行客户现场访问和参加行业活动。
与战略客户合作,建立与组织多个层级的领导关系,以设计和实施解决方案。直接与客户合作,收集需求,开发架构,并将业务需求转化为解决方案。可能通过代码开发和脚本编写来实施解决方案,并确保成功部署。通过高度定制的演示向客户、会议和活动展示产品/应用程序的理解。通过资源配置、规划和客户教育/培训,支持从概念验证(POC)到服务生产部署的客户。创建和分发技术资产(白皮书、解决方案代码、博客文章和视频演示)。作为技术云解决方案和客户成功的主要贡献者。识别差距和增强点,影响面向客户的功能的工程路线图。作为主要贡献者,可能向他人提供指导和辅导。工作是非常复杂的非例行工作,涉及到在专业领域应用先进的技术/业务技能。可能与高层管理层互动。通过持续学习新兴技术来保持专业知识。