关于这个职位:
我们正在构建一个大规模的合成数据生成引擎,以产生逼真的可观察性数据集——指标、日志和跟踪——以支持AI/ML训练和基准测试。您将设计、实现和扩展管道,模拟复杂的生产环境,并发出可控的、参数化的遥测数据。
职责
• 设计和实现指标(CPU、延迟、吞吐量)和日志(结构化/非结构化)的生成器。
• 构建可配置的管道,以控制数据速率、形状和异常注入。
• 开发可重复的工作负载模拟和系统行为(微服务、故障、恢复)。
• 将合成数据存储与Prometheus、ClickHouse或Elasticsearch集成。
• 与ML研究人员合作,评估生成数据集的真实性和覆盖范围。
• 使用Docker容器优化规模和可重复性。
资格
• 精通Python编程。
• 熟悉可观察性工具(Grafana、Prometheus、ELK、OpenTelemetry)。
• 对分布式系统的指标和日志结构有扎实的理解。
• 有构建数据管道或合成数据生成器的经验。
• (加分)了解异常检测、时间序列分析或生成性ML模型。
薪资
- 每小时$50 - $75,具体取决于经验
- 远程工作,灵活的工作时间