基于公共安全 NLP 条件 LoRA 数据增强:监控场景中分层合成数据生成对比
Journal: Journal of Safety Science and Engineering DOI: 10.12238/jsse.v3i2.13474
Abstract
我们提出了一种新的框架,将条件合成数据生成与低秩适应(LoRA)集成在一起,以增强用于公共安全应用的开源大型语言模型(LLM)。所提出的方法分层生成特定领域的合成数据,其中场景级生成器首先生成粗略模板,然后进行细节注入,以确保与真实世界监控报告的语义一致。此外,LoRA增强型适配器选择性地更新LLM中的注意力头,并结合对比学习,将关键信息置于外围细节之上。该系统还集成了前缀调整,动态地将模型专门用于子任务,例如报告摘要或警报生成。实验表明,该方法在保留LLM一般功能的同时,显著提高了提取关键实体和适应不同监控场景的性能。这项工作弥合了合成数据增强和有效模型适应之间的差距,为资源受限的公共安全领域提供了可扩展的解决方案。
Keywords
条件合成数据生成;低秩适应(LoRA);开源大型语言模型(LLM);公共安全应用;对比学习;前缀调整
Full Text
PDF - Viewed/Downloaded: 0 TimesReferences
[1] 骆仕杰,金日泽.采用低秩编码优化大语言模型的高校基础知识问答研究[J].计算机科学与探索,2024,18(8):2156-2168.
[2] 易顺明,许礼捷,周洪斌.基于Transformer的预训练语言模型在自然语言处理中的应用研究[J].沙洲职业工学院学报,2022,25(03):1-6.
[3] 闫鹏博.基于参数高效微调的迁移学习研究与实现[D].北京邮电大学,2024.
[4] 张钦彤,王昱超,王鹤羲,等.大语言模型微调技术的研究综述[J].计算机工程与应用,2024,60(17):17-33.
[5] 陈霄萍,李涛,李琳,等.一种基于大型语言模型的软件漏洞自动修复方法[J/OL].计算机技术与发展:1-10[2025-04-15].
[6] 许德龙,林民,王玉荣,等.基于大语言模型的NLP数据增强方法综述[J/OL].计算机科学与探索:1-23[2025-04-15].
[2] 易顺明,许礼捷,周洪斌.基于Transformer的预训练语言模型在自然语言处理中的应用研究[J].沙洲职业工学院学报,2022,25(03):1-6.
[3] 闫鹏博.基于参数高效微调的迁移学习研究与实现[D].北京邮电大学,2024.
[4] 张钦彤,王昱超,王鹤羲,等.大语言模型微调技术的研究综述[J].计算机工程与应用,2024,60(17):17-33.
[5] 陈霄萍,李涛,李琳,等.一种基于大型语言模型的软件漏洞自动修复方法[J/OL].计算机技术与发展:1-10[2025-04-15].
[6] 许德龙,林民,王玉荣,等.基于大语言模型的NLP数据增强方法综述[J/OL].计算机科学与探索:1-23[2025-04-15].
Copyright © 2025 代娟, 沈松雨, 徐俊宇

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License