虚拟化工程师

圣弗朗西斯科 7天前合同 网络
面议
数据平台与可视化工程师(合同工) 15个月合同 地点:加利福尼亚州洛斯阿尔托斯 - 现场办公 优先考虑独立签证 技能:AWS、SQL、Python、LLM、ML、数据可视化、Plotly、Vega 我们正在寻找一名合同工来帮助构建和发展我们的内部数据平台,该平台支持车辆测试、实验和机器学习工作流。 该角色专注于在团队指导下实施和扩展数据摄取管道、自动化处理工作流、指标跟踪系统和基于网络的可视化工具。 您将与现有系统和定义明确的组件合作,贡献直接供研究人员使用的功能和改进。 您的工作内容 - 为从车辆测试和ML管道收集的大型异构数据集实施和扩展数据摄取和处理工作流。 - 贡献于改进在现实世界约束下运行的长时间数据工作流的编排、调度和可靠性。 - 集成下游自动化,如指标计算、绘图和基于LLM的后处理工具。 - 实施支持数据索引、元数据管理和实验跟踪的后端服务和API。 - 构建面向用户的基于网络的工具和仪表板,允许用户浏览数据集、检查结果并了解实验进展。 - 使用SQL支持的数据库存储指标、实验元数据和摘要,确保数据可以在系统之间一致地查询和访问。 - 贡献于数据可追溯性和来源机制,捕获数据集在ML工作流中如何生成、转换和使用。 我们正在寻找的条件 - 使用Python进行后端服务、数据管道和自动化的经验。 - SQL的工作知识,包括编写查询和理解数据库模式。 - 构建基于网络的工具的经验,包括: - 后端API(例如,FastAPI、Flask或类似) - 使用React或其他现代框架的前端应用程序 - 熟悉AWS和基于云的存储或服务。 - 适应在Linux环境中工作 加分项 - 对自动驾驶赛车和车辆动力学研究感兴趣。 - 之前有涉及数据管道、仪表板或分析工具的实习或项目经验。 - 接触过数据可视化库、ML工作流或实验跟踪系统。 工作声明 1. 工作范围 合同工将提供工程服务,以支持内部数据平台工具的开发和扩展,支持车辆测试、实验和机器学习工作流。 范围包括现有系统的所有权和扩展、自动化管道的实施、基于网络的可视化工具的开发以及数据可追溯性机制的交付。 2. 关键职责 2.1 数据摄取平台(pokedex / evdc_ingest) ● 拥有并扩展现有的数据摄取系统,负责将车辆测试数据上传到Amazon S3。 ● 改进摄取编排以支持: ○ 小数据集的上传优先级 ○ 大数据集在非工作时间的延迟上传调度 ○ 自动丢弃明确标记为垃圾的数据 ○ 跨服务器重启或故障的持久排队和可恢复性 ● 在受限网络带宽下维护摄取可靠性。 ● 扩展当前的网络界面以提高清晰度、可靠性和可扩展性 2.2 后摄取自动化、注释和存储 ● 将摄取工作流与后处理器集成,例如: ○ 现有的基于LLM的自动注释模块 ○ 自动化绘图生成(数据一旦到达S3,您就会自动生成图表 - 想象一下!) ○ 指标计算管道 ● 将注释系统打包并部署为服务(例如,基于EC2)。 ● 实施编排逻辑,以便在摄取资源空闲时机会性地触发注释作业。 ● 在SQL支持的数据库层中存储指标、实验元数据、图表和摘要。 2.3 指标平台和排行榜 ● 使用团队定义的模式实施和扩展SQL支持的指标数据库。 ● 定义支持的模式: ○ 多个项目 ○ 基线与实验运行 ○ 历史比较 ● 构建自动化管道以在摄取后计算和注册指标。 ● 实施项目级排行榜功能以跟踪: ○ 每个指标的最佳性能 ○ 接受的基线与被拒绝的实验 ● 开发基于网络的可视化界面以: ○ 显示时间序列进展 ○ 可视化指标权衡 ○ 总结实验结果 2.4 数据可追溯性和来源 ● 为ML数据集设计和实施数据来源系统。 ● 跟踪: ○ 源S3 URI ○ 应用于数据集的后处理操作 ● 实施后处理功能注册表,支持: ○ 轻松添加和删除 ○ 版本控制和配置跟踪 ● 生成可读的人类数据集标识符。 ● 通过API和/或网络界面启用数据集谱系的查找和检查。 里程碑 阶段1:摄取稳定化(0-3个月) - 上传优先级和非工作时间调度 - 垃圾数据处理 - 可靠的状态UI - 捕获记录的错误 阶段2:指标平台(3-9个月) - SQL支持的指标数据库 - 自动化指标生成 - 数据库中注册的初始指标输出 - 项目级排行榜和基线 阶段3:可视化平台(9-15个月) - 基于网络的指标和进度仪表板 - 时间序列和权衡可视化 - 实验比较视图 支线任务:注释器 - 集成的基于LLM的注释服务 阶段4+:数据可追溯性(15个月-?) - 数据集来源跟踪 - 后处理注册表 - 数据集谱系检查工具 - 文档和交接