能源工作线是全球最大且增长最快的能源招聘网站和能源中心。我们拥有超过700万能源专业人士的受众，全球每月发布超过40万份能源和工程职位，并与全球领先的能源公司合作。我们专注于石油和天然气、可再生能源、工程、电力和核能市场，以及电动汽车、电池和聚变等新兴技术。我们致力于为求职者提供来自世界各地的最激动人心的职业机会。职位描述关于我们 Kalamata Capital Group是一家前瞻性的金融科技公司，致力于利用数据驱动的智能来支持小企业的增长。我们正在寻找一位高技能的数据科学家，以开发预测模型，进行强大的探索性数据分析，并构建可扩展的数据管道，以推动组织内的关键业务决策。概要理想的候选人是一位经验丰富的数据科学家，具有机器学习、数据工程工作流和统计建模的深厚技术专长。此角色将与工程、产品和分析团队紧密合作，设计、验证和部署提高决策效率的机器学习解决方案。熟练掌握Pandas、PySpark和MongoDB至关重要，同时具备编写干净、可复现、生产就绪代码的能力。成功的候选人将同样擅长向非技术利益相关者传达复杂的分析见解。主要职责探索性分析与数据分析：使用Pandas和PySpark对大型复杂数据集进行EDA；评估数据质量和结构。模型开发：构建、调整和评估监督和无监督机器学习模型（例如基于树的方法、回归、提升算法）。管道工程：设计并实施可靠、可维护的机器学习管道和生产环境的预处理工作流。数据管理：查询和集成MongoDB数据集；设计支持分析和操作工作负载的高效模式和聚合管道。可视化：使用seaborn、plotly和matplotlib创建直观的可视化，以支持模型诊断和业务故事。可复现代码：编写干净、模块化、文档齐全的Python代码（符合PEP8）；使用Git维护版本控制。模型可解释性：应用SHAP和LIME等模型解释工具评估特征影响并提高透明度。跨职能协作：与工程、分析和产品团队合作，将业务需求转化为可操作的模型驱动解决方案。文档：为内部利益相关者撰写清晰的技术备忘录、报告和模型文档。所需技能和资格 • 教育和经验： • 计算机科学、机器学习、计算生物学或相关定量领域的硕士学位，加上3年以上相关经验，或教育和应用工作经验的等效组合。 • 线性代数、概率和统计学的扎实基础。技术专长： • 熟练使用Pandas和PySpark进行数据清理、重塑、合并、特征工程和工作流优化。 • 拥有MongoDB的丰富经验，包括查询、索引和聚合管道。 • 深入了解监督/无监督机器学习技术和工具（scikit-learn, XGBoost）。 • 对优化、正则化、损失函数和评估指标（AUC, precision, recall, RMSE）有扎实理解。核心技能： • 具有交付端到端机器学习项目的经验（数据摄取建模评估可选部署）。 • 能够编写干净、可复现的代码并维护有组织的笔记本/脚本。 • 出色的沟通能力，能够将分析转化为业务见解。 • 能够搬迁到纽约大都会区。（加分）技能 • 具有AWS工具（Glue, S3, DMS）的经验。 • 熟悉深度学习框架（PyTorch, TensorFlow）。 • 具有使用FastAPI, Flask, AWS或GCP部署模型的经验。 • SQL、数据仓库或数据版本控制经验。 • 软件工程最佳实践（测试、CI/CD、代码审查）。 • 提供GitHub, GitLab或分析/机器学习代码作品集的链接。提供灵活的居家办公选项。如果您有兴趣申请此职位，请按申请按钮并按照申请流程进行。能源工作线祝您在下一次职业变动中好运。

数据科学家（机器学习与管道工程），位于旧金山

Energy Jobline ZR