职位概述:
职责
- 设计和开发机器学习系统,实施适当的机器学习算法,进行实验,并与该领域的最新发展保持更新。
- 创建数据模型,进行统计分析,培训和重新培训系统以优化性能。
- 构建高效的自学习应用程序,并为人工智能的进展做出贡献。
- 运行机器学习测试和实验
- 实施适当的机器学习算法
- 使用GPU进行训练,使用分布式计算pyspark和并行计算的Python库
- 通过库调用、REST API队列/消息系统和数据库查询提供组件和流程如何协同工作并相互通信的理解 - 提供系统设计以避免瓶颈,使算法能够随着数据量的增加而良好扩展
基本资格:在以下领域有5年以上的经验:
- PyTorch、NLTK、SciPy、Scikit
- 学习、Numpy、OpenCV或等效的图像预处理
- SQL/NoSql数据库和查询
- 一个或多个机器学习工具包或Python框架
- 深度学习概念
- 通过选择适当的模型(如决策树、knn、神经网络或多个模型的集成)有效地应用机器学习算法的标准实现
最好有:
- 对概率和统计以及机器学习概念(如精确度、召回率、优化、超参数调整、过拟合和可解释性)的理解
- 编码最佳实践、OOD/OOP、模块化设计、SOA和系统架构
技术技能:
- 用于编码的Python、pyspark或R编程语言 - 用于部署的Kubernetes和Docker
- 用于云计算的AWS Sagemaker或EC2实例
- 用于数据库的MYSQL、Oracle、mongodb或Redshift DB
- 用于计算和部署深度学习/神经网络包(如Python中的pytorch、tensorflow)的Cloudera分布式平台,并使用GPU进行训练、分布式计算pyspark和并行计算的Python库