基于流程工程的自动化越狱技术实践

Journal: Advances in Computer and Autonomous Intelligence Research DOI: 10.12238/acair.v2i3.8606

秦策

花瓣云科技有限公司

Abstract

随着人工智能技术的快速发展,大模型在多个领域展现出巨大潜力的同时,也引发了安全和伦理问题。本文提出了一个自动化越狱框架,旨在通过流程工程的方法系统化地提高大模型越狱攻击的效率和成功率。研究首先通过精益六西格玛(LSS)和DMAIC流程对越狱攻击流程进行设计和优化。随后,利用流程分析技术识别并优化攻击中的瓶颈环节,提高攻击效率。研究还涉及风险评估与伦理考量,确保研究的安全性和合法性。通过模块化设计,将越狱攻击流程分解为多个组件,便于复用和更新。自动化越狱框架的核心包括初始化攻击配置、变异与选择有潜力的越狱实例、约束与评估攻击效果、迭代优化攻击策略、生成详细攻击报告以及风险与伦理管理。本研究不仅提高了越狱攻击的成功率,而且为大模型安全性研究提供了有力的工具和方法,为未来的研究和实践奠定了基础。

Keywords

自动化越狱框架；流程工程；大模型；越狱攻击

Full Text

PDF - Viewed/Downloaded: 0 Times

References

[1] 基于提示工程的大模型安全https://security.fudan.edu.cn/b9/34/c26973a637236/page.htm.
[2] 关于大模型「越狱」的多种方式,有这些防御手段https://www.jiqizhixin.com/articles/2024-07-29.
[3] 20步内越狱任意大模型,更多“奶奶漏洞”全自动发现https://www.thepaper.cn/newsDetail_forward_25188520.
[4] 关于大模型「越狱」的多种方式,有这些防御手段https://www.jiqizhixin.com/articles/2024-07-29.
[5] 大语言模型越狱攻击综述https://cn-sec.com/archives/2981237.html.
[6] 流程管理https://baike.baidu.com/item/%E6%B5%81%E7% A8%8B%E7%AE%A1%E7%90%86/3716596.
[7] NTU华科等最新研究:全自动化「提示越狱」,能打败大模型的只有大模型,登安全顶会NDSS https://www.36kr.com/p/2500900109854977.
[8] GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts https://segmentfault.com/ a/1190000044813044.

Citing this article:

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License