加入一个由行业和科学领导者组成的团队,共同实现通过先进的人工智能和机器学习赋予创新力的愿景。我们正在解决我们客户在人工智能/机器学习和最前沿云基础设施交叉领域的激动人心的挑战,其中机器学习既是我们平台的核心驱动力,也是主要特色之一。
我们正在寻找擅长实施和研究人工智能/机器学习工程和基础设施工程能力的候选人。
主要职责:
• 人工智能/机器学习基础设施管理:使用Kubernetes和KFserve架构、部署和维护可扩展的人工智能/机器学习基础设施,用于模型托管和管理。
• 模型部署和优化:实施高效的人工智能/机器学习模型部署流程,注重优化、可扩展性和可靠性。
• 性能监控和调优:监控模型性能指标,识别瓶颈,并实施改进以提高效率和准确性。
• 团队领导和合作:领导一个小型工程团队,营造合作的环境,确保有效的沟通和知识共享。
• 跨职能合作:与数据科学家、软件工程师和其他利益相关者密切合作,了解需求,将其转化为可扩展的解决方案,并确保成功部署。
• 持续集成/持续部署(CI/CD):实施和维护人工智能/机器学习模型的CI/CD流程,以确保快速可靠的模型更新和发布。
• 文档和最佳实践:开发和维护与机器学习基础设施和部署流程相关的文档、最佳实践和标准操作程序。
所需技能和资格:
• 熟练掌握KFserve、大型语言模型(LLMs)、Kubernetes和Flyte等人工智能/机器学习模型部署和管理工具。
• 在大规模管理人工智能/机器学习基础设施方面具有丰富的背景。
• 有人工智能/机器学习模型的CI/CD流程经验。
• 具备有效领导和管理小团队的能力。
• 出色的问题解决能力,注重可扩展性和可靠性。
• 良好的沟通和合作能力,能够在跨职能团队中有效工作。
• 计算机科学、工程或相关领域的学士或硕士学位(或具备同等经验)。
优先资格:
• 在KFserve和Flyte之外的其他机器学习框架和工具方面有经验。
• Kubernetes或相关技术的认证。
• 在部署和管理大型语言模型(LLMs)方面有先前经验。
• 熟悉用于机器学习模型托管的云平台(AWS、GCP、Azure)。