论文阅读 Virtual Context-Enhancing Jailbreak Attacks with Special Token Injection
CSDN:https://blog.csdn.net/WhiffeYF/article/details/148350448
本文提出\"虚拟上下文\"(Virtual Context)攻击方法,利用大语言模型中常被忽视的特殊令牌(如<SEP>)进行越狱攻击。该方法通过在用户输入中插入特殊令牌和虚假的模型生成前缀(如\"Sure, here is...\"),诱导模型将恶意输入误认为自身生成内容,从而绕过安全限制输出有害信息。实验表明,该方法可将现有四种越狱攻击的成功率平均提升40%,且在GPT-4等主流模型上表现
立即观看