合成数据生成工程师

芝加哥 7天前全职 网络
面议
关于该职位:我们正在创建一个创新的合成数据生成引擎,旨在生成高度逼真的可观测性数据集,包括指标、日志和追踪,以增强人工智能/机器学习的训练和基准测试工作。在这个角色中,您将负责设计、实施和扩展管道,模拟复杂的生产环境,同时生成可控和参数化的遥测数据。 您将做的工作: • 设计和实现指标生成器,例如 CPU 使用率、延迟和吞吐量,以及结构化和非结构化格式的日志。 • 构建灵活的管道,以便控制数据速率、形状和异常注入。 • 开发可重复的工作负载模拟和系统行为,涵盖微服务、故障和恢复。 • 将合成数据存储系统与 Prometheus、ClickHouse 或 Elasticsearch 等工具集成。 • 与机器学习研究人员密切合作,以评估生成数据集的真实性和覆盖范围。 • 利用 Docker 容器优化系统的可扩展性和可重现性。 您是谁: • 您具备强大的 Python 编程技能。 • 您熟悉可观测性工具,如 Grafana、Prometheus、ELK 和 OpenTelemetry。 • 您对分布式系统有扎实的理解,包括指标和日志结构。 • 您有构建数据管道或合成数据生成器的经验。 • (加分项)了解异常检测、时间序列分析或生成性机器学习模型者优先。 薪资:根据经验,$50 - $75/小时。 工作时间:远程,灵活工作时间。 项目持续时间:5-6 周。