LLM的对齐、幻觉和可控文本生成
弄清楚关于大模型的对齐、幻觉和可控文本生成三者的含义,并区分三者的区别和重合之处,并对三者的技术解决方案进行阐述以及目前已有的技术解决方案存在的改进空间。
LLM 的对齐(Alignment)
定义:对齐是指使模型符合人类的偏好和价值观
解决方案:
- 强化学习:RLHF
优点:泛化效果好
缺点:不稳定的训练效率和数据利用率
- 有监督微调:指令微调、RRHF
优点:训练效率高,收敛快
缺点:泛化性差
- 上下文学习:prompt engineer、RAG
优点:很小的对齐tax
缺点:效果依靠模型的能力,难以应用到不同场景
LLM的幻觉(Hallucination)
定义:幻觉是一种现象,指生成无意义和不忠于原内容的文本
分类
- 事实性幻觉
- 事实不一致
- 事实捏造
- 忠实性幻觉
- 指令不一致
- 上下文不一致
- 逻辑不一致
原因
- 领域知识缺陷
- 过时的信息
- 记忆化
- 遗忘
- 推理失败
缓解事实性幻觉的方法叫做知识注入(不是教授全新的知识,而是通过诱导偏见来刷新记忆)
知识注入分为两种:
- 上下文学习(主要是RAG)
- 微调
- 指令微调
- 强化学习
- 无监督微调(连续预训练)
- 模型编辑
RAG的挑战
- 上下文长度
- 鲁棒性
- 如何与微调协同
- LLM的角色
- 时延和泄漏
LLM的可控文本生成(Controllable Text Generation)
定义:可控文本生成是指能够指导模型按照特定的要求或条件生成文本。这包括控制文本的风格、情感、主题、长度等属性。
对齐、幻觉和可控文本生成的对比和关系
对齐关注的是模型输出的道德和社会可接受性,幻觉关注的是模型输出的准确性和真实性,而可控文本生成关注的是模型输出的定制化和用户需求的满足。
这三者在实践中是相互关联的。为了实现可控文本生成,模型需要在对齐的基础上避免幻觉,确保生成的内容既符合用户的期望,又准确无误。同时,对齐和幻觉的解决也有助于提高可控文本生成的质量,因为用户期望的输出首先应该是真实和合理的。
例子:
人类命令LLM跑步去将地上的苹果捡起来
对齐:LLM确实是去捡东西了,可能捡错对象或者没捡起来,但是确实是去捡东西了,而不是去把苹果踩碎,与人类的命令一致
幻觉:LLM将梨捡起来了
可控文本生成:LLM确实是将苹果捡起来了,但是不是跑过去的,是爬过去的或者跳过去的
一些想法
- 推理即微调
- 通过改变训练数据的顺序来进行对齐
- 幻觉与创新:探索模型在生成新颖和创造性内容时产生幻觉的界限,以及如何在保持创造性的同时减少幻觉。
- 个性化对齐(人性化大模型)
- 模型编辑