职位描述:
作为一名负责数据分析和人工智能/机器学习应用开发的领导,您将负责整个开发过程。该角色必须亲自动手,并愿意从事机器学习运营。
这个职位适合具有软件工程技能和大数据技术专业知识的自我激励个体。候选人将广泛参与包括概念验证、设计、文档编写、开发和测试新功能在内的亲自动手活动。候选人必须具备敏捷灵活的能力,根据团队需求调整优先级。
您将与以下内容一起工作:
• 海量数据:您将使用我们的平台获取/检查、分析、构建数据管道,处理吉比特/太字节的结构化和非结构化数据,为客户创造价值。您还将处理企业数据。
• 推动极限:该角色将处于我们数据/机器学习平台的前沿。随着我们努力解决更多客户挑战,您将快速原型设计新功能、工具和想法,以保持我们的竞争优势。
• Linux技巧:您将熟练使用命令行,包括vi/emacs等工具,并对grep、bash、awk、sed等基本命令有深入的了解,以深入研究数据、系统和计算平台,获得所需的结果。
• 生产部署:您将负责将机器学习管道集成和部署到生产环境,使您的想法得以实现。
• 协调和与跨职能团队合作,有时位于不同地理位置。
资质和经验:
• 计算机科学基础:您至少获得了计算机科学或相关学位,并具有持续学习的强烈道德观。
• 商业软件工程:您具有6至10年的专业软件开发经验,熟悉Python、PySpark、Java等语言和系统,懂得版本控制(git),具备良好的分析和调试技能。
• 大数据:您具备丰富的数据分析经验,熟悉Google Cloud、Big Query、Data Flow、Hadoop生态系统、HDFS、Spark等大数据基础设施。您经常构建处理吉比特/太字节数据的数据管道,并了解处理如此大型数据集的挑战。
• 数据建模:对数据、模式、数据模型、PL/SQL、星型和雪花模式等有独特的见解,了解如何通过高效查询数据进行分析的数据建模技术,理解TDD的重要性并开发数据验证技术。
• 实时系统:了解内存、NoSQL和索引技术的数据库演变,以及对Google pub/sub、GCP技术、Kafka、Storm、Spark Streaming等实时和流处理系统的经验。
• 强大的设计能力:在大型/高度复杂项目中取得成功的强大设计能力,最好是在企业应用和集成领域。
• 项目管理:展示出色的项目和时间管理技能,熟悉敏捷实践(如JIRA)。
• 出色的口头和书面沟通能力:必须能够有效地与团队成员和其他职能团队成员沟通和合作,以协调和完成交付。
必备技能:
商业软件工程
Python、版本控制(git)、分析和调试技能
大数据
Google Cloud Platform、Big Query、Data Flow
数据建模
数据建模、PL/SQL、星型和雪花模式设计、内存
实时系统
Google pub/sub、GCP技术、Kafka
良好的技能:
商业软件工程
PySpark、Java
大数据
Hadoop生态系统、HDFS、Spark
数据建模
NoSQL和索引技术
实时系统
Storm、Spark Streaming