1 什么是大模型幻觉?
大模型不遵循原文(一致性,Faithfulness,是否遵循input content)或者不符合事实(事实性,Factualness,是否遵循世界知识),可以认为模型产生了幻觉问题
- 传统任务里,幻觉大多都是一致性问题,即LMs在生成回复的时候和输入信息产生了冲突,比如信息冲突、无中生有
- 在LLMs里,幻觉大多是Factualness,因为应用LLMs的形式更多是open-domain chat,而不是像过去那样专注于单一任务(如机器翻译、问答系统),而不是局限于特定任务,开放式聊天意味着用户可以问任何东西——科学、历史、感情、哲学、甚至虚构的世界。这让模型在没有“任务边界”的保护下,更容易出现幻觉
2 为什么会出现大模型幻觉问题
2.1 数据角度
- 训练数据的可信度:训练数据中包含大量虚假信息
- 重复数据问题:过多的重复信息会导致模型的记忆出现bias
2.2 模型角度
- 模型结构:如果是比较弱的backbone(RNN)会出现比较严重的幻觉问题,但在LLMs时代,不太可能是这个原因
- 解码算法:为了让LLMs的输出的多样性,会采用top-p采样算法,这样会导致更严重的幻觉,有时还在解码算法中设置一些随机性,进一步让LLMs胡编乱造
top-p采样:模型从预测概率最高的词开始累加,当这些词的概率总和达到一个设定的阈值(p)后停止,从这些候选词中随机选取一个词生成,这样避免仅仅生成概率最高的词,增加文本多样性和流畅性。
- 暴露偏差:训练和测试阶段不匹配的exposure bias会导致幻觉
训练阶段,模型是根据真实的文本片段预测next token,每一步生成,模型会根据真实的前文内容作为输入。然后在实际中,模型只能依赖自己之前生成的文本,而不再是完全可靠的真实数据。
- 参数知识:LMs在预训练阶段记忆的知识是错误的,导致幻觉。
- 统计模型的本质:大模型(比如GPT)不是基于事实推理,而是基于大量文本数据学到的词语之间的关联。
3 如何评估大模型幻觉问题
可以分为基于参考的评估和无参考评估
3.1 Reference-based
Reference-based方法是指在评估生成内容的准确性时,使用参考文本(如人类生成的标准答案)或原始信息源作为对比基准。这种方法主要衡量模型生成内容和参考答案的重叠程度或相似度,通常使用的指标包括ROUGE、BLEU等。
- 优点:可以通过参考标准的答案来评估生成内容的相似性,适合一些标准化的生成任务。
- 缺点:在许多任务中,参考答案可能并非唯一;生成内容有多种表达方式,因此该方法的评估灵活性有限。此外,对于大语言模型生成的开放式内容,不一定总能找到完美的参考答案。
这种方式基本上只能评价Faithfulness,而不能评价Factualness,因此通常不适合LLMs
3.2 Reference-free
在大语言模型(LLM)生成内容的幻觉问题中,Reference-Free(无参考评估)方法旨在不用标准答案或特定参考来检测模型生成内容的
准确性和一致性。
这里主要介绍了几种方法、包括基于信息抽取(IE)、基于问答(QA)、基于自然语言推理(NLI)、基于事实性分类,以及人工评估这些方法的核心理念和优缺点如下:
3.2.1 IE信息抽取
3.2.2 基于QA
3.2.3 基于NLI
3.2.4 基于Factualness classification metric(事实性分类指标)
3.2.5 人工评估
4 如何缓解大模型幻觉
数据层面:构建高质量数据集-人工标注/自动筛选
- 人工标注:对于大模型的训练,数据量很多,如果人工标注,不太可行,但是对于一些下游任务,为了减少幻觉,人工标注仍然有效。还可以建立评测数据集
- 自动筛选:利用模型筛选出来可能导致幻觉的数据;还可以给可靠度高的数据更高的权重
模型结构:
- 模型结构层面的工作往往focus在设计更能充分编码利用source information的方法,比如融入一些人类偏置,如GNN网络。
- 或者在解码时减少模型的生成随机性,因为diversity和Faithfulness往往是一个trade-off的关系,减少diversity/randomness可以变相提升Faithfulness/Factuality。
- 检索增强:被证明可以显著减少幻觉问题,e.g., LLaMA-index。
训练方式:
- 可控文本生成:将幻觉的程度作为一个可控的属性,利用可控文本生成技术进行控制。
- 提前规划骨架,再生成:sketch to content
- 强化学习:假设是基于word的MLE训练目标,只优化唯一的reference,可能导致暴露偏差问题。现有工作将减轻幻觉的指标作为强化学习的reward函数,从而减轻幻觉现象。
- 多任务学习: 通过设计合适的额外任务,可以达到减轻幻觉的效果。
- 后处理:设计小模型专门用于fix掉幻觉错误。