在Oracle Cloud中设计、部署和优化AI基础架构解决方案,重点关注GPU加速工作负载,并结合在FSI、医疗保健、政府或高科技/初创企业等行业中流行的合作伙伴和开源解决方案。
与多功能技术团队合作,设计可扩展和高效的AI/ML架构。
为基于GPU的解决方案提供技术专业知识和支持,包括性能调优和基准测试。
通过技术演示、概念验证(PoC)和解决方案支持,加速新客户和现有客户的机会。这涉及到在关注特定行业合作伙伴和开源解决方案的同时,提供价值和创新。
研究和评估人工智能基础架构和GPU计算中的新兴技术和标准流程,推动持续改进。
熟练撰写优雅而引人注目的文档,包括外部出版物和内部文档,特别关注我们的开源和合作伙伴解决方案、基准测试和在Oracle Cloud上运行AI工作负载的标准流程。
所需技能/经验
拥有计算机科学、工程或相关领域的学士或更高学位的8年以上解决方案工程经验。
在云环境中设计、实施和优化AI基础架构解决方案的实际经验,重点关注上述行业中的GPU工作负载。
对网络、数据中心拓扑、路由和交换协议以及以太网/InfiniBand的高级实际知识。
对服务器架构、PCIe设备、NICs、Linux操作系统和内核驱动程序有系统级理解。具备使用Docker/容器、Kubernetes、数据中心计算/网络/存储部署等DevOps/MLOps技术的经验。
熟练掌握Oracle Cloud、AWS、Azure或Google Cloud Platform等云平台,包括与AI和GPU计算相关的服务。
对GPU架构、CUDA编程和并行计算原理有深入理解。熟悉AI框架和库(如TensorFlow、PyTorch、scikit-learn)。
在GPU加速的云环境中部署规模化的AI模型的经验,例如基于Transformer的自然语言处理模型、基于图的深度学习模型和/或几何深度学习模型。
在GPU加速的云环境中部署计算机视觉、推荐系统、医学成像、药物发现、基因组学、预测分析、金融建模或高性能计算等用例的经验。
出色的解决问题的能力,能够解决云环境中复杂的技术问题,并具备与非技术关键利益相关者合作和传达技术概念的有效沟通能力。
云计算(如Oracle Cloud Infrastructure Architect Associate、AWS Certified Solutions Architect、Azure Solutions Architect)和GPU计算(如NVIDIA Certified Associate - AI in the Data Center)的认证是一个加分项。
具备开源开发背景,熟练掌握系统工程、编码(C/C++、Python、CUDA)。
具有NVIDIA系统/SDK(如Triton Inference Server)、NVIDIA网络技术(如DPU、RoCE、InfiniBand)和/或AMD GPU解决方案的实际经验。
相关的出版物和/或会议参与经历。偶尔需要出差,进行客户现场访问和行业活动。