← 返回
光伏发电技术 工商业光伏 可靠性分析 ★ 5.0

基于上下文集成语言-图像多模态网络的少样本光伏薄膜缺陷检测

Few-Shot Photovoltaic Film Defect Detection With Contextual Ensemble Language-Image Multimodal Network

作者 Huiyan Wang · Ruihao Peng · Yiheng Zhu · Jiachen Li · Mengchu Zhou · Ming Ying
期刊 IEEE Transactions on Industrial Informatics
出版日期 2025年5月
技术分类 光伏发电技术
技术标签 工商业光伏 可靠性分析
相关度评分 ★★★★★ 5.0 / 5.0
关键词 光伏薄膜 少样本缺陷检测 CELIN网络 文本信息 交叉类掩码方法
语言:

中文摘要

工业光伏薄膜缺陷的自动检测对于确保光伏组件的可靠性至关重要。主要挑战包括缺陷样本有限、类别间特征相似以及复杂背景的干扰。现有的基于深度学习的方法需要大规模数据集,且仅关注视觉数据,这限制了它们在少样本缺陷检测(FSDD)中的有效性。为应对这些挑战,我们提出了上下文集成语言 - 图像多模态网络(CELIN),该网络通过提示调优融入文本信息,提升了光伏薄膜的少样本缺陷检测能力。与依赖单一固定文本提示的传统语言 - 图像模型不同,CELIN采用位置感知上下文集成策略来整合特定位置的提示向量,使模型能够捕捉全局上下文信息并减少背景干扰。此外,引入了跨类别掩码方法,通过在注意力计算过程中阻断类别间的交互来区分相似的缺陷类别,从而减少误分类。在我们自己的少样本光伏薄膜缺陷数据集和多个公开基准数据集上进行的大量实验表明,CELIN明显优于现有方法。

English Abstract

The automatic detection of defects in industrial photovoltaic film is crucial for ensuring the reliability of photovoltaic modules. Key challenges include limited defect samples, interclass feature similarities, and interference from complex backgrounds. Existing deep learning-based methods require large-scale datasets and focus solely on visual data, which limits their effectiveness in few-shot defect detection (FSDD). To address these challenges, we propose Contextual Ensemble Language-Image multimodal Network (CELIN), which enhances FSDD in photovoltaic films by incorporating textual information through prompt tuning. Unlike traditional language-image models that rely on single fixed text prompts, CELIN employs a position-aware context ensemble strategy to integrate position-specific prompt vectors, enabling the model to capture global contextual information and reduce background interference. In addition, a cross class mask method is introduced to differentiate between similar defect categories by blocking interclass interactions during attention computation, thereby minimizing misclassification. Extensive experiments on our own few-shot photovoltaic film defect dataset and various public benchmarks demonstrates that CELIN significantly outperforms existing methods.
S

SunView 深度解读

从阳光电源的业务视角来看,这项基于语言-图像多模态网络的光伏薄膜缺陷检测技术具有重要的战略价值。作为光伏组件可靠性保障的关键环节,该技术直接关系到我们光伏逆变器、储能系统等核心产品的上游供应链质量控制。

该技术的核心创新在于解决了工业场景中的三大痛点:小样本学习、相似缺陷区分和复杂背景干扰。传统深度学习方法依赖海量标注数据,而CELIN通过引入文本提示调优和位置感知上下文集成策略,能在缺陷样本稀缺情况下实现高精度检测。这对于阳光电源的生产质检环节意义重大——光伏薄膜的某些缺陷类型出现频率低但危害性高,传统方法往往因训练样本不足而漏检,而该技术的小样本学习能力可显著降低质量风险。

从应用前景看,该技术可直接集成到我们的智能制造体系中,提升组件入厂检验和生产过程监控的自动化水平,减少对人工经验的依赖。特别是跨类别掩码方法对相似缺陷的精准区分能力,能有效降低误判率,这对于保障25年以上使用寿命的光伏产品至关重要。

然而技术落地仍面临挑战:多模态模型的计算复杂度可能影响在线检测的实时性;不同生产线、不同薄膜材料的泛化能力需要验证;文本提示的设计需要领域专家深度参与。建议阳光电源可与研究团队合作,基于自有生产数据进行定制化开发,并探索将该技术扩展至储能电池、氢燃料电池等其他新能源产品的质检场景,形成通用化的质量保障平台。