← 返回
系统并网技术 强化学习 ★ 5.0

基于奇异摄动理论与自适应动态规划的强化学习稳定现代交直流电网中并网电压源变换器直流侧动态特性

Reinforcement Learning to Stabilize Singularly Perturbed DC-Side Dynamics of Grid-Connected Voltage-Source Converters in Modern AC–DC Grids Using Singular Perturbation Theory and Adaptive Dynamic Programming

作者 Masoud Davari · Jianguo Zhao · Chunyu Yang · Weinan Gao · Tianyou Chai
期刊 IEEE Transactions on Industrial Electronics
出版日期 2024年9月
技术分类 系统并网技术
技术标签 强化学习
相关度评分 ★★★★★ 5.0 / 5.0
关键词 交直流系统 并网电压源变流器 最优控制策略 强化学习 奇异摄动理论
语言:

中文摘要

电网现代化进程中交直流系统的稳定性和性能在很大程度上依赖于并网电压源换流器(GC - VSC)的整流模式。作为系统的核心,其影响十分显著。基于脉宽调制方法的级联控制的电流控制型GC - VSC在智能电网范式中应用广泛。本文探讨了在现代交直流电网中,此类GC - VSC控制结构所引发的动态特性如何被视为奇异摄动系统。为此,本文借助自适应(或近似)动态规划方法和奇异摄动理论(SPT),提出了一种基于强化学习(RL)的、针对具有不确定动态特性的电压控制问题的新型最优控制策略。首先,利用SPT将原最优控制问题分解为关于一个未知慢时间尺度子系统和一个已知快时间尺度子系统的两个最优问题。其次,针对具有不可测状态的慢子系统,给出一种基于输出反馈且保证收敛的离线策略RL算法,以便根据测量数据学习最优控制器。第三,根据所得到的快慢控制器构建复合控制器,并严格证明了其最优性和闭环稳定性。与直接全阶设计不同,所提出的分解复合设计框架不仅避免了数值刚性问题,还缓解了控制综合中的高维问题。基于电力硬件在环仿真测试和快速控制原型方法的对比实验表明了该方法的优越性和有效性。

English Abstract

The stability and performance of ac–dc systems in grid modernization heavily rely on the rectification mode of grid-connected voltage-source converters (GC-VSCs). Being considered as the heart of the system, its impact is significant. The current-controlled GC-VSC based on the cascade control using a pulsewidth modulation approach is commonly deployed in the smart grid paradigm. This article discusses how the dynamics induced by that type of GC-VSC control structure can be regarded as singularly perturbed systems in modern ac–dc grids. As a result, it proposes a novel optimal control strategy for the voltage control problem with uncertain dynamics using reinforcement learning (RL) via the adaptive (or approximate) dynamic programming method and the singular perturbation theory (SPT). First, by means of SPT, the original optimal control problem is decomposed into two optimal problems with respect to an unknown slow time-scale subsystem and a known fast time-scale subsystem. Second, for the slow subsystem with unmeasurable states, an output-feedback-based off-policy RL algorithm with a guaranteed convergence is given in order to learn the optimal controller in terms of measurement data. Third, a composite controller is established in terms of the obtained fast–slow controllers; its optimality and closed-loop stability are rigorously proved. Unlike the direct full-order design, not only does the proposed decomposition composite design framework bypass the numerical stiffness, but it also alleviates the high dimensionality in the control synthesis. Comparative experiments using testing based on power hardware-in-the-loop simulations and rapid control prototyping methodology reveal the superiority and effectiveness of the proposed method.
S

SunView 深度解读

从阳光电源的业务视角来看,这项基于强化学习和奇异摄动理论的并网变流器控制技术具有重要的战略价值。该技术直接针对当前级联控制结构中的多时间尺度动态问题,这与我司光伏逆变器和储能变流器面临的核心技术挑战高度契合。

在技术价值层面,该方法通过奇异摄动理论将复杂的全阶系统分解为快慢子系统,有效规避了数值刚性问题和高维控制设计难题。这对于我司大功率集中式逆变器和MW级储能PCS产品尤为关键,可显著提升直流侧电压稳定性,减少母线电容配置需求,从而降低系统成本并提高功率密度。更重要的是,基于输出反馈的离线策略强化学习算法能够在不依赖精确模型的情况下实现最优控制,这为应对光储系统中参数漂移、工况多变等不确定性问题提供了新思路。

从应用成熟度评估,该研究已通过功率硬件在环测试验证,技术可行性较高,但距离产品化仍需工程化转化。关键挑战在于:强化学习算法的实时性能否满足微秒级控制周期要求,以及算法在极端电网故障工况下的鲁棒性验证。

对阳光电源而言,这项技术的引入机遇明显:可增强我司产品在弱电网和复杂交直流混合电网中的适应能力,特别是在大规模新能源基地和微电网场景中形成差异化竞争优势。建议组织技术预研团队,重点关注算法轻量化设计和与现有DSP/FPGA控制平台的集成方案,同时开展与高校的联合攻关,加速技术向1500V系统和储能双向变流器的迁移应用。