角色概述:技术能力强且注重细节的数据科学家,负责支持模型开发和迁移,使用 Java 和 Python 将基于 XGBoost 的机器学习模型从 Java(基于 DL4J 库)迁移并验证到 Python,使用内部定制的 Python 框架。与 PySpark 工程师、平台团队和验证团队紧密合作,确保指标的一致性。主要职责:与客户团队合作,理解基于 Java 的 XGBoost 模型的逻辑、结构和参数;解释数据转换逻辑并验证来自现有 Java 实现的特征管道;在历史数据集上运行转换为 Python 的模型,并根据 Java 模型基准验证输出指标;与模型验证团队合作,审查性能、一致性,并解释任何指标偏差;设计单元测试和验证场景,以支持每个迁移模型的准备工作;使用 PySpark 和 pandas 从 parquet 文件中获取模型输入数据,以重现训练和评分工作流;进行探索性数据分析(EDA)并在需要时抽查行级预测。所需技能:7-10 年使用 Python 进行机器学习的实践经验,尤其是 XGBoost、scikit-learn 和 NumPy/pandas;熟练使用 PySpark 读取、转换和分析存储在 parquet 中的大型数据集;有验证或逆向工程机器学习模型的经验,能够从业务逻辑或遗留实现中提取信息;接触过基于 Java 的机器学习库,了解不同语言之间的内部映射;熟悉 Python 框架,用于元建模库。