← 返回

基于MILP-TD3的用户侧储能系统优化运行

Optimal Operation of User-side Energy Storage Systems Based on MILP-TD3

作者 陈景文单茜
期刊 中国电机工程学报
出版日期 2025年13月
卷/期 第 45 卷 第 13 期
技术分类 储能系统技术
技术标签 储能系统 户用光伏 用户侧储能 强化学习
相关度评分 ★★★★★ 5.0 / 5.0
关键词 深度强化学习 用户侧储能系统 MILP - TD3算法 运行优化策略 安全运行
版本:
深度强化学习(DRL)在用户侧储能调控中应用广泛,但智能体常难以严格满足运行约束,影响系统安全性。为此,提出一种混合整数线性规划与双延迟深度确定性策略梯度结合的MILP-TD3方法。构建以运行成本最小为目标、计及电池退化成本的实时优化模型,并将功率平衡约束嵌入马尔科夫决策过程。通过将TD3的动作价值函数转化为MILP公式,确保智能体严格执行约束。算例结果表明,该方法平均日运行成本较传统TD3降低25.34%,单次决策平均耗时0.024秒,满足实时性与安全性要求。
深度强化学习(deep reinforcement learning,DRL)作为调控用户侧储能以消纳光伏发电和满足用户用电需求的重要算法得到广泛的应用,但应用过程中,DRL智能体难以严格执行运行约束,导致其提供不可靠的动作,威胁储能系统运行的安全性.基于此,该文提出一种基于MILP-TD3 的用户侧储能系统优化运行策略.首先,以调度周期内运行成本最小为目标,建立考虑电池退化成本的实时运行优化模型,引入包含功率平衡约束的马尔科夫决策过程(Markov decision process,MDP),将储能运行问题转换为智能体的寻优问题;其次,提出将双延迟深度确定性策略梯度(double delay depth deterministic strategy gradient,TD3)算法的动作价值函数转化为混合整数线性规划(mixed integer linear programming,MILP)公式的 MILP-TD3 算法,使智能体严格执行储能运行的约束条件;最后,通过算例对比分析,结果表明所提模型和算法能够确定最优运行策略,可以严格执行功率平衡约束,该文算法较传统TD3算法所得平均日运行成本降低25.34%,各时段平均优化时间为 0.024 s,满足实时调度要求,保证用户侧储能系统安全运行.
S

SunView 深度解读

该MILP-TD3方法对阳光电源ST系列储能变流器和PowerTitan储能系统的智能调度具有重要应用价值。通过将约束嵌入强化学习决策过程,可直接集成到iSolarCloud云平台的能量管理系统中,提升用户侧储能的实时优化能力。该方法考虑电池退化成本的建模思路,可优化ST储能系统的全生命周期经济性,单次决策0.024秒的响应速度满足储能变流器毫秒级控制需求。相比传统TD3降低25.34%运行成本的效果,为阳光电源户用储能ESS集成方案提供了严格满足安全约束的智能调度算法,可增强产品在工商业储能市场的竞争力。