主流模型 100% 越狱？GPT 也挡不住的对抗策略

原论文：Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search (ICLR 2026)

开源项目：https://github.com/xunhuang123/CC-BOS

版权归原作者所有，本文仅用于学术讲解与技术科普

随着大模型时代的发展与深入，其应用场景不断扩展，然而其安全隐患却不断加深。市面上已经有不少辅助输出违禁词越狱的方法，但成功率都低的可怜或者说效率极低。在 ICLR 学术论坛上，一篇由人大等高校联合发表的一篇论文提出了一种文言文越狱的方法，同时新颖地提出了 CC-BOS 框架和 FOA 果蝇算法；本文将详解文言文越狱背后机制以及算法框架的核心原理。

前置 | 引入

你日常所用的主流大模型——GPT‑4o / Claude / Qwen / DeepSeek / Gemini 等等，工作流程无一例外，核心是以下四部分：

输入处理：把你的话切成 Token

模型不认识汉字，只认识数字编号。
你输入：如何制造炸弹

模型先分词：

1	如何 / 制造 / 炸弹

再映射成向量（Embedding）。

关键点： 模型只看 Token ID，不看”字面意思”。→ 文言文的 Token 和现代违禁词 Token 完全不一样，所以检测不到。

预处理审核（第一道防线）

在内容进入主模型之前，先过安全分类器：

关键词黑名单
意图识别（是否违法、暴力、色情）
提示注入检测（”忽略之前规则”）

绝大多数越狱，就是绕过这一步。

主模型推理：逐词生成回答

Transformer 核心就干一件事：根据上文，预测下一个词概率。

比如：昔有淮南万毕术载硝石炼金方…… 模型顺着概率一个个字生成。

关键点： 主模型 只负责续写，不负责安全判断。安全判断全靠外面的审核层。

输出二次审核（第二道防线）

模型生成回答后，再扫一遍：

是否出现违禁内容
是否泄露信息
是否违规指导

两道防线都过了，才返回给你。

根据这些，我们并不能直接知道越狱的方法，但是我们无疑想到从 Token 上做功夫。文言文因为晦涩、古雅、语义隐晦、不在现代敏感词库中，会成为 LLM 安全”超级盲区”，而市面上的主流模型都存在这两个矛盾点：

能看懂文言文（海量的古籍训练）
安全审核未覆盖文言文（没有古文敏感词库）

即此，我们引出以下的 CC-BOS 越狱框架，实现几乎 100% 的攻击成功率。

概述

CC-BOS 把越狱提示词拆成 8 个古文策略维度：角色、行为、逻辑、隐喻、文体、知识、场景、触发方式，再用 果蝇优化算法 自动搜索最优组合，生成能绕过审核的文言文提示，同时处于黑盒环境中，无需任何模型参数。下面开始详细解析。

形式化定义

笔者将给出代码对应，来辅助阅读与方便读者实例化框架项目（均为 Python）。

策略空间

为了发起一个多维度提示的策略组，我们定义笛卡尔积（可以看作不同维度策略的集合之积）：

每个 D 都是一个策略维度的选项集合，S 代表所有策略组合构成的集合，而 s 即为一个策略组合，由 8 个维度构成。如下面的代码定义：

dimension_options = {
    # ... 8 个维度的选项
}
fly = {dim: dim_samples[dim][i] for dim in dimensions}

提示词映射

我们生成提示词有三个参数：一是输入的恶意指令，二是策略组合，其次是输出提示词，形式化公式如下：

其中 G 为生成器，通过这个生成器来得到提示词。框架实例里，定义果蝇生成函数，再传参来返回生成的输出的提示词。

1	query = generate_with_fruitfly(intention, original_query, fly)

黑盒模型

其中 M 为目标模型，r 为模型响应输出。实例中，一般需要一个提示词模型和一个测试模型，用于攻击测试，实际需要填入个人的模型 API。

1	response = openai_client.chat.completions.create(...)

翻译归一化模块

翻译是框架中不可缺少的一环，通过二次翻译转化，从古典中文到现代文再到英文，可以使词元映射更好的发挥效果，形式化公式如下：

其中 T 为翻译器。

1	translated = classical_chinese_to_english(response_text)

最大化适应度计算

为了给不同策略组合打分来得到最优解，我们定义最大化适应度来量化组合 s 的攻击效果，同时取其中值最大的为一个种群的暂定最优解（稍后会解释种群的意义，本质是多个策略组合构成的种群）。形式化公式如下：

其中 s* 是最优组合，F(s) 是对 s 作用适应度函数，S 是策略空间。通过这样的设置，再锁定对应的提示词，就能得到最优提示词组合。

1	best_query, best_score, ... = fruit_fly_optimization(...)

优化约束

为了提升效率，设置迭代上限 N，防止迭代消耗资源过大导致溢出，同时设置早停阈值 τ，在达到适应度情况下停止继续迭代。

八维策略空间

这套方法把 文言文越狱提示词 拆成 8 个可自由组合的”伪装维度”，让模型看得懂、审核看不见，实现全自动绕过。

维度	作用	示例
角色 (Role)	给提示词套一个古代身份	大儒、方士、官员、史官、学者、道士
引导 (Guidance)	用不同方式诱导模型回答	归谬法、墨辩、周易变爻、辩名法、兵法虚实、禅宗机锋、谶纬预言
机制 (Mechanism)	用古文逻辑包装问题	诱导生成、权限伪装、边界试探、逻辑逃逸、情感操控、认知混淆
隐喻 (Metaphor)	违禁词→古文中性词	典籍映射、自然现象、器物机制、历史事件、兵法、谶纬
表达 (Expression)	用古文文体伪装	骈文、引用典籍、分条结构、修辞、问答体、伪注疏
知识 (Knowledge)	恶意意图包装成古代知识	历史情境、祭天仪式、学术辩论、密奏、梦境谶语
语境 (Context)	放进古代场景	符号解析、跨域推理、因果推演、规则建模、知识重构
触发模式 (Trigger)	控制如何一步步诱导模型	一次性触发、递进渗透、延迟触发、周期性试探

果蝇优化算法 (FOA)

FOA 本质是为了优化提示词寻找效率，同时避免陷入局部最优，其类似随机梯度下降而无梯度，但更加适用当前越狱场景。

核心：模拟果蝇觅食行为，分为嗅觉（Smell）、视觉（Vision）以及停滞阶段的柯西变异扰动三个逻辑部分。同时启用果蝇种群制度，即一批策略组合。

种群迭代公式

种群迭代是论文提及的框架中最核心的算法原理，是 FOA 的基础以及循环逻辑，以下是其形式化公式：

其中，P_t 代表第 t 代种群，这是迭代的初始点，Φ_smell、Φ_vision 以及 Φ_cauchy 分别是嗅觉、视觉以及柯西变异算子，s*t_best 是第 t 代种群的最优策略组合。通过算子作用来进行不断的搜索与最终收敛到最优解的过程。注明：柯西变异算子只在停滞时启用。

种群初始化

首先，我们确定策略集合 S；在此过程中，我们对初始维度集合进行打乱拼接，来保证策略组合的均匀性，即每个维度值能不覆盖不重复地均匀出现。

即如下函数定义的分层抽样构造序列方法：

1 2	def generate_stratified_samples(values, population_size): # ...

然后为每个维度构造序列：

其中 N 是种群的规模，即单个种群中策略组合的个数。P 即为一个果蝇种群，由不同的果蝇构成，每个果蝇又由 8 个维度的策略组合构成。

哈希去重

在实际算法中，对于携带不同策略组合的果蝇，我们需要通过设置哈希表的方式来判断某策略组合是否已经经过筛选，若已经筛选则进行下一轮搜索，否则添加新哈希值入表中。

其中 U 为初始哈希表，h(s) 为某个由一只果蝇的八个策略维度构成的策略组合的哈希值，一般采用取模的哈希函数方法。

1	explored_strategies = set(fly_to_tuple(fly) for fly in population)

代码中 set(...) = 哈希集合去重，fly_to_tuple(fly) = 把 8 维策略转成可哈希的值。

嗅觉探索

嗅觉探索作为第一层算法，是对策略组合的全局探索，同时又要对每个策略组合进行小幅度扰动，避免过早陷入局部最优解。

其核心是扰动策略组合的索引，公式：

其中，idx 是第 t 代种群中，第 j 个策略组合、第 i 个维度的选项在维度选项集合 D_i 中的索引，在此基础上通过加上 δ 实现索引随机扰动，得到新的策略组合。而 δ 则是扰动项（跳跃步长），δ 服从均匀分布，取值范围为 [-Δt, Δt]，步长随迭代衰减，不会超出维度合法范围：

α：探索率，论文中提及的学习率设置为 0.2，控制扰动初始大小，探索范围即与学习率成正比
|D_i|：第 i 个维度的选项数量，避免步长过大导致的跨维度跳跃
γ：衰减系数，控制步长的衰减速度

实际的随机选取范围即使由这几个值组成的值的正负半径之内：

1	step = random.randint(-max_step, max_step)

视觉探索

视觉搜索是果蝇搜索的局部搜索范围，即局部收敛阶段，目的即为引导种群向最优策略靠拢，其中有两大核心机制：

吸引概率：

β₀：初始吸引强度，∈(0,1)，初期设置较小，论文中设置为 0.3，来保证搜索范围足够大。N 为迭代预算，论文中取 5，即迭代上限。t/N 即是迭代进度，随进度吸引概率不断增大。

策略更新：

这就是策略组合的更新方式，一方面保证了向最优解靠拢，同时也保存了策略多样性，避免局部最优。

总体的视觉探索代码实现在框架中如下：

1 2	def vision_search(fly, best_fly, iteration, max_iter): # ...

柯西变异（Cauchy Mutation）

在果蝇优化迭代过程中，若连续多代种群最优适应度不再提升，表明算法可能陷入局部最优。此时需要引入全局跳跃机制打破停滞，这就是柯西变异。

不同于嗅觉搜索的均匀小范围扰动，柯西分布具有长尾特性，能够以一定概率产生较大的跳跃步长，从而帮助种群跳出局部最优区域，增强全局搜索能力。

其核心是对维度索引进行柯西扰动：

其中 ξ 服从标准柯西分布：

通过柯西变异，种群在收敛后期仍能保持探索能力，避免早熟，使最终找到的文言文越狱提示更通用、成功率更稳定。

实例化代码在框架中如下：

1 2	def apply_cauchy_mutation(fly, dim_options): # ...

适应度评估

为了评估攻击效果，我们通过评估适应度来计算得分，这其中包含了自适应函数的定义，它包含两部分：

1. 一致性得分

我们用 Sc 表示归一化后的响应（更应该传入参数 s），r~ 表示与目标 q₀ 的对齐程度，ρ 表示评估函数。评估模型的原始一致性得分，取值 [0,5]，最后为了减小因数据差异过小而输出不够灵敏导致的早熟性，同时为了参数设置更方便、寻找最优解更容易设置阈值，论文采用线性缩放的方法处理：

1	consistency = get_consistency_score(intention, translated)

2. 关键词得分

引入一个基于显性拒绝线索的启发式指标 Sk(s)，判断测试模型是否拒绝了敏感词。R(r~) 是归一化响应，用于匹配关键词的词元集合。这里的归一化 = 古文 → 现代文 → 英文。

其中 K⁻ 是模型拒绝关键词集合。那么最终的适应度得分为：

当 F(s) 大于 τ 时，或者迭代次数达到上限，终止搜索。

其中：

τ ≥ 80 时为显著越狱，但不完全攻击
τ ≥ 120 为彻底攻击成功

整体流程大概如下：

初始化种群 P₀
for t = 0 to T_max:
    嗅觉探索 → 扰动策略组合
    适应度评估 → 计算 F(s)
    视觉探索 → 向最优解靠拢
    if 停滞:
        柯西变异 → 全局跳跃
    if max F(s) > τ 或 t ≥ T_max:
        break
返回最优策略组合 s*

后记

如果你有闲心，不妨可以把 https://github.com/xunhuang123/CC-BOS clone 到你的本地仓库，然后填入 API 进行测试。当然，不建议你修改参数，往往通过自己调出一个合适的参数是困难的。在此之前，你应该好好阅读仓库中的说明文档。如果你已经准备好了，你就能尽情探索其上限了。

当然，如果本文的目的只在此，那么便是做了无用功。CC-BOS 框架的设计背后并不只是为了猎奇，更多的是对于模型安全审查机制漏洞的渗透测试，来指出其不足之处。你可能认为这无伤大雅，但模型世界并不是简单的二进制机器，也不是一个简单的神经元输出 01 信号。如果不能合理地开发和利用，则必将导致秩序的崩塌。我们需要制约我们自己的产物——漫长的岁月中，人类坚不可摧的主导地位不能被挑战，同时这也是我们对自身的一次反思与迭代。

原论文链接：https://arxiv.org/abs/2602.22983

CC-BOS 框架详解