人工智能(AI)工程师,高性能计算

16个月前全职
HCLTech

HCLTech

location 新加坡
unsaved
人工智能(AI)工程师,HPC 职责: • 开发、实施和维护基于GPU的10至1000个节点的集群,确保性能和可用性最佳。 • 管理ML/AI平台 - 分布式ML服务、LLMs、Vector-DB和AI推理,通过管理部署、资源分配、监控和安全性。 • 与跨职能团队合作,解决AI基础设施需求,支持AI相关项目,并提供技术专长。 • 监控和评估AI系统和集群的性能,确保它们符合行业最佳实践和公司标准。 • 编写报告,记录流程,并发布改进AI基础设施和解决方案的建议。 • 使用AI/ML不断改进在团队的端到端交付中使用的内部流程和工具。 经验和资格: • 在AI/HPC领域拥有4年以上的HPC基础设施工程经验 • 在管理GPU集群优化基于GPU的服务/工具/软件方面有2年以上的经验 • 具备使用HPC后端(如AI)创建Web服务的经验 • 熟练掌握RoCEv2、K8s、KVM、Ubuntu、Python、Shell、Go、Rust、GPU驱动程序和200G/400G网络的集群互联。 • 具有AI工作负载调度器和分配优化的经验。 • 具备较强的组织、解决问题和故障排除能力,能够同时管理多个项目。 • 出色的口头和书面沟通能力,能够与团队成员和各级利益相关者有效合作。