← 返回
基于深度强化学习算法的分布式光伏-EV互补系统智能调度
Intelligent Scheduling of Distributed Photovoltaic-EV Complementary Systems Based on Deep Reinforcement Learning Algorithm
| 作者 | 陈宁李法社王霜张慧聪唐存靖倪梓皓 |
| 期刊 | 高电压技术 |
| 出版日期 | 2025年3月 |
| 卷/期 | 第 51 卷 第 3 期 |
| 技术分类 | 光伏发电技术 |
| 技术标签 | 强化学习 |
| 相关度评分 | ★★★★★ 5.0 / 5.0 |
| 关键词 | 分布式光伏 电动汽车 V2G 深度强化学习 实时调度 近端策略优化 陈宁 李法社 王霜 张慧聪 唐存靖 倪梓皓 高电压技术 High Voltage Engineering |
版本:
针对分布式光伏与电动汽车大规模接入电网带来的冲击,构建了光伏-EV互补调度模型,以平抑并网功率波动、提升用户经济性为目标,综合考虑光伏出力、负荷波动、EV接入随机性、实时电价及电池老化成本等因素,提出采用梯度随机扰动改进的近端策略优化算法(GRP-PPO)求解。通过调整目标函数获得两种运行策略:策略一优先满足出行需求与功率稳定,并网点功率稳定率达91.84%;策略二侧重用户收益,单日EV收益达82.6元,有效激励用户参与调度,较传统PPO算法性能提升3.48%。
针对分布式光伏与电动汽车(electricvehicle,EV)大规模接入电网将对电力系统造成冲击的问题,通过建立分布式光伏-EV互补调度模型,以平抑光伏并网波动、增加EV用户经济性为目标,考虑光伏出力的随机性、负荷功率波动、EV接入时间及电量随机性、实时电价、电池老化成本等因素,提出采用梯度随机扰动的改进型近端策略优化算法(gradient random perturbation-proximal policy optimization algorithm,GRP-PPO)进行求解,通过对模型目标函数的调整,得到基于不同优化目标的2种实时运行策略.通过算例可知,实时调度策略可有效地平抑并网点功率波动,调度效果较传统PPO算法提高了 3.48%;策略一以用户的出行需求及平抑并网点功率波动为首要目标,能够保证用户的24 h用车需求,同时并网点功率稳定率达到91.84%;策略二以用户经济效益为首要优化目标,全天参与调度的EV收益可达82.6元,可起到鼓励用户参与调度的目的.
S
SunView 深度解读
该深度强化学习调度技术对阳光电源光储充一体化解决方案具有重要应用价值。GRP-PPO算法可直接集成至iSolarCloud云平台,实现分布式光伏SG系列逆变器、ST储能变流器与充电桩的协同优化调度。91.84%的并网功率稳定率可显著降低PowerTitan储能系统的功率波动应对压力,延长电池寿命;双策略运行模式可嵌入充电桩管理系统,在满足V2G功率支撑与用户经济激励间灵活切换。该算法考虑电池老化成本的建模思路,可优化ST系列储能变流器的充放电策略,提升全生命周期经济性。建议将该技术与阳光电源现有MPPT算法、VSG控制技术融合,构建更智能的源网荷储协同控制系统。