职位描述:
• 与多个团队(数据科学和数据工程)合作,面对规模的独特机器学习系统挑战。
• 利用分布式训练系统,在IT/OT产品领域构建可扩展的机器学习流水线,用于模型训练和部署。
• 设计和实现解决分布式训练执行的解决方案,包括模型超参数优化、模型训练/推理延迟和系统级瓶颈。
• 研究并实现最先进的LLM模型,用于不同的业务用例,包括微调和服务LLM。
• 确保客户模型的性能、可用性和规模,保持高水平的代码质量和周到的设计质量和监控。
• 优化流行的机器学习库与云客户端和数据处理框架之间的集成。
• 在CPU/GPU上构建具有最佳并行性和性能的深度学习模型和算法。
• 计算机科学、软件工程、电气工程或相关领域的硕士或博士学位。
• 在编程密集型职位上具有3年以上的Python行业经验。
• 在以下1个或多个机器学习主题中具有2年以上的经验。
• 分类、聚类、优化、推荐系统、图挖掘、深度学习。
• 具有3年以上的分布式计算框架(如Spark、Kubernetes生态系统等)行业经验。
• 具有3年以上的流行客户端框架(如Spark MLlib、Keras、TensorFlow、PyTorch、HuggingFace Transformers和库(如scikit-learn、spacy、gensim、CoreNLP等))行业经验。
• 具有主要云计算服务的3年以上行业经验。
• 具备构建和扩展生成式AI应用的背景或经验,特别是在Langchain、PGVector、Pinecone、AzureML等框架中。
• 具备构建数据产品和建立创新记录的经验将是一个重要的加分项。
资格要求:
• 精通Python/PySpark编码经验。
• 精通容器化服务。
• 精通使用Azure客户端部署模型。
• 有在CICD框架中工作的经验。
• 有推动下游建模工作更顺畅的动力。