加入一个由行业和科学领袖组成的团队,实现通过先进的人工智能和机器学习技术赋能创新的愿景。我们正在解决客户在人工智能/机器学习和尖端云基础设施交叉领域的激动人心的挑战,其中机器学习既是我们平台的核心驱动因素,也是主要特色之一。
我们正在寻找熟练实施和研究人工智能/机器学习工程和基础设施工程能力的候选人。
主要职责:
• 人工智能/机器学习基础设施管理:设计、部署和维护可扩展的人工智能/机器学习基础设施,利用Kubernetes和KFserve进行模型托管和管理。
• 模型部署与优化:实施高效的人工智能/机器学习模型部署流程,注重优化、可扩展性和可靠性。
• 性能监控与调优:监控模型性能指标,识别瓶颈,并实施改进以提高效率和准确性。
• 团队领导与合作:领导一个小型工程团队,营造协作环境,确保有效沟通和知识共享。
• 跨职能合作:与数据科学家、软件工程师和其他利益相关者密切合作,了解需求,将其转化为可扩展的解决方案,并确保成功部署。
• 持续集成/持续部署(CI/CD):实施和维护人工智能/机器学习模型的CI/CD流程,以确保快速可靠的模型更新和发布。
• 文档和最佳实践:开发和维护与机器学习基础设施和部署流程相关的文档、最佳实践和标准操作规程。
所需技能和资格:
• 熟练掌握KFserve、大型语言模型(LLMs)、Kubernetes和Flyte,用于人工智能/机器学习模型的部署和管理。
• 在大规模管理人工智能/机器学习基础设施方面具有丰富的背景。
• 有人工智能/机器学习模型的CI/CD流程经验。
• 具备有效领导和管理小型团队的能力。
• 出色的问题解决能力,注重可扩展性和可靠性。
• 良好的沟通和合作能力,能够在跨职能团队中有效工作。
• 计算机科学、工程或相关领域的学士或硕士学位(或具备同等经验)。
首选资格:
• 在KFserve和Flyte之外的其他机器学习框架和工具方面的经验。
• Kubernetes或相关技术的认证。
• 先前部署和管理大型语言模型(LLMs)的经验。
• 熟悉用于机器学习模型托管的云平台(AWS、GCP、Azure)。