关于我们
Kalamata Capital Group是一家前瞻性的金融科技公司,致力于利用数据驱动的智能来支持小企业的增长。我们正在寻找一位高技能的数据科学家来开发预测模型,进行强有力的探索性数据分析,并构建可扩展的数据管道,以支持整个组织的关键业务决策。
概述
理想的候选人是一位经验丰富的数据科学家,在机器学习、数据工程工作流和统计建模方面具有深厚的技术专长。该职位将与工程、产品和分析团队紧密合作,设计、验证和部署提高决策效率的机器学习解决方案。熟练掌握Pandas、PySpark和MongoDB是必需的,同时具备编写干净、可复现、可用于生产的代码的能力。成功的候选人将同样擅长向非技术利益相关者传达复杂的分析见解。
主要职责
• 探索性分析和数据分析:使用Pandas和PySpark对大型复杂数据集进行EDA;评估数据质量和结构。
• 模型开发:构建、调整和评估监督和非监督机器学习模型(例如,基于树的方法、回归、提升算法)。
• 管道工程:为生产环境设计和实施可靠、可维护的机器学习管道和预处理工作流。
• 数据管理:查询和集成MongoDB数据集;设计支持分析和操作工作负载的高效模式和聚合管道。
• 可视化:使用seaborn、plotly和matplotlib创建直观的可视化,以支持模型诊断和业务故事讲述。
• 可复现代码:编写干净、模块化、文档齐全的Python代码(符合PEP8);使用Git维护版本控制。
• 模型可解释性:应用SHAP和LIME等模型解释工具来评估特征影响并提高透明度。
• 跨职能合作:与工程、分析和产品团队合作,将业务需求转化为可操作的模型驱动解决方案。
• 文档编写:为内部利益相关者撰写清晰的技术备忘录、报告和模型文档。
所需技能和资格
• 教育和经验:
• 计算机科学、机器学习、计算生物学或相关定量领域的硕士学位,以及3年以上相关经验,或同等的教育和应用工作组合。
• 在线性代数、概率和统计学方面具有坚实的基础。
技术专长:
• 熟练使用Pandas和PySpark进行数据清理、重塑、合并、特征工程和工作流优化。
• 拥有MongoDB的丰富经验,包括查询、索引和聚合管道。
• 深入了解监督/非监督机器学习技术和工具(scikit-learn、XGBoost)。
• 对优化、正则化、损失函数和评估指标(AUC、精度、召回率、RMSE)有扎实的理解。
核心技能:
• 具有交付端到端机器学习项目的经验(数据摄取、建模、评估、可选部署)。
• 能够编写干净、可复现的代码并维护有组织的笔记本/脚本。
• 出色的沟通能力,能够将分析转化为业务见解。
• 能够搬迁到纽约大都会区。
优先(加分)技能
• 具有AWS工具(Glue、S3、DMS)经验。
• 熟悉深度学习框架(PyTorch、TensorFlow)。
• 具有使用FastAPI、Flask、AWS或GCP部署模型的经验。
• 具有SQL、数据仓库或数据版本控制经验。
• 软件工程最佳实践(测试、CI/CD、代码审查)。
• 提供GitHub、GitLab或分析/机器学习代码的作品集链接。
提供灵活的居家办公选项。