职位名称:强化学习工程师 — 能源优化(1个职位)
关于这份工作
我们正在寻找一位熟练的强化学习工程师加入我们的团队,领导开发基于RL的解决方案,以优化UPS、电池系统和站点级电源管理。在这个角色中,您将设计、实施和部署RL代理和混合控制策略,以减少能源消耗、延长电池寿命、优化充放电计划,并提高运营弹性。理想的候选人应结合深厚的ML/RL专业知识与实际系统工程经验,并对应用能源系统有浓厚兴趣。
职责
- 研究与开发:设计和实施强化学习算法(无模型和基于模型)、多目标RL和混合RL/优化解决方案,用于能源管理问题。
- 仿真与数字孪生:构建、验证和维护仿真环境和数字孪生(Gym风格或自定义),准确模拟UPS/电池行为、负载特性和电网交互,以进行代理训练和评估。
- 数据与特征工程:使用遥测和传感器数据生成高质量的数据集、特征和奖励/成本函数;根据需要应用时间序列分析和信号处理。
- 训练与评估:大规模训练RL代理,调整超参数,进行消融研究,并建立稳健的评估指标(安全性、可靠性、样本效率、可解释性)。
- 部署与MLOps:将模型生产化用于边缘或云部署(设备上推理、容器化服务),与设备管理/OTA系统集成,并为ML模型实施CI/CD。
- 安全与约束:确保学习的策略遵循安全性、硬件约束和法规要求(约束感知RL、安全探索、验证测试)。
- 跨职能合作:与硬件、固件、产品和现场团队密切合作,将RL解决方案集成到现实产品和试点部署中。
- 文档与知识共享:撰写清晰的技术文档、可重复的实验,并与利益相关者分享发现;指导初级工程师。
资格
- 计算机科学、电气工程、机器人学、控制系统或相关领域的硕士或博士学位(或同等行业经验)。
- 3年以上机器学习应用经验,其中至少1-2年专注于强化学习或控制。
- 精通Python编程,具有RL框架的实际操作经验(如PyTorch、TensorFlow、Stable Baselines、RLlib、Acme)。
- 具有构建仿真环境(OpenAI Gym、自定义模拟器)和处理时间序列遥测的经验。
- 熟悉控制理论、优化、模型预测控制(MPC)或混合RL+MPC方法者优先。
- 具有云平台(AWS/GCP/Azure)、Docker、Kubernetes和MLOps工具的部署和监控经验。
- 对能源系统、电池、UPS操作或电力电子有深入理解者优先。
- 具备强大的分析能力、实验设计和问题解决能力。
- 优秀的沟通能力和跨学科团队协作能力。
我们提供
- 将先进的RL应用于具有可衡量影响的现实能源系统的机会。
- 由工程师、产品经理和现场专家组成的合作跨学科团队。
- 具有竞争力的薪酬和研究及试点资源。
- 灵活性(远程/混合选项)和职业发展支持。
- 参与试点部署和产品集成的实际操作。
如何申请
请将以下材料提交至[隐藏文本],主题为“强化学习工程师 — 能源优化”:
1. 简历(最多2页)
2. 求职信(1页),描述相关的RL/能源经验以及您对该职位的兴趣
3. 展示RL/控制工作的作品集、GitHub、出版物或项目链接(PDF或URL)
4. 两个推荐人(姓名、职位、联系方式)
入围的候选人可能会被要求进行简短的技术演示或可重复的实验。我们欢迎来自不同背景的申请者,并鼓励结合研究严谨性与工程实用性的候选人申请。