Think&Cite：让 LLM 不再“空口无凭”，句句有出处

原创

Android老皮 2025-01-08 17:19:20 ©著作权

©著作权归作者所有：来自51CTO博客作者Android老皮的原创作品，请联系作者获取转载授权，否则将追究法律责任

Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling

Junyi Li, Hwee Tou Ng 等

Department of Computer Science, National University of Singapore 等

本文提出Think&Cite框架，将带引用文本生成任务转化为多步骤推理问题，设计自引导蒙特卡洛树搜索（SG-MCTS）方法，利用大语言模型的自我反思能力优化推理路径，并引入过程奖励模型（PRM）从生成过程和引用过程两个方面为搜索过程提供反馈，从而提升生成文本的准确性和引用质量。

改进大语言模型生成带引用文本的能力，逐步生成文本并引用相关文献，确保生成的文本和引用的一致性，使生成内容更加可靠。

现有方法通过 Prompt方法或监督微调让 LLM 在生成文本时提供引用，它们完全基于自回归过程，任何中间生成错误（例如，错误陈述或错误引用）都可能导致最终回答不正确。

将带引用文本生成任务转化为多步骤推理问题，将搜索算法引入带引用文本生成过程，从而避免错误的推理路径。

Think&Cite：让 LLM 不再“空口无凭”，句句有出处_ai

• 生成过程奖励：衡量生成文本的质量，通过现有的经过直接偏好优化（DPO）的模型来计算生成句子的质量得分。

Think&Cite：让 LLM 不再“空口无凭”，句句有出处_agi_02

• 归因过程奖励：使用自然语言推理（NLI）模型判断引用的文献是否能够支持生成的句子，通过引用召回率和引用精确率来评估引用质量。

• 选择：使用UCT算法选择最优节点进行扩展。

• 扩展：利用 LLM 的自我反思能力检查并修正查询关键词，从语料库中检索相关文献，通过迭代思考-表述-引用过程生成高质量的子节点文本。

• 评估：使用进度奖励模型计算新扩展节点的预期奖励。

• 反向传播：将新节点的奖励回传到其父节点，更新路径上每个节点的值函数。

自引导的蒙特卡洛树搜索（Self-Guided Monte Carlo Tree Search, SG-MCTS）：扩展了经典的蒙特卡洛树搜索（MCTS），利用 LLM 的自我反思能力来检查 MCTS 的中间状态，并指导树扩展过程，主动避免推理路径上的错误，其具体步骤为：
过程奖励模型（Progress Reward Models, PRM） 引入进度奖励模型来衡量从根节点到当前状态的树搜索进度，包括生成过程奖励和归因过程奖励两个方面。提供了可靠和全面的反馈，以指导MCTS搜索过程。
迭代思考-表述-引用（think-verbalize-cite）范式 在MCTS的扩展过程中，框架通过迭代思考-表述-引用的过程来生成带引用文本，即在每一步中生成一个句子，并在每个句子中引用支持该句子的文献。

实验表明，Think&Cite 在多个数据集上提升了生成带引用文本的准确性和可靠性。在需要复杂推理和引用支持的任务中，Think&Cite 比传统方法表现更优，显著减少了生成过程中的错误内容和无效引用。

Think&Cite：让 LLM 不再“空口无凭”，句句有出处_ai_03

综上，Think&Cite 引入了一种新的生成带引用文本的范式，通过结合蒙特卡洛树搜索和过程奖励模型，克服了传统自回归生成方法的局限性。多步骤推理和动态反思机制使得 Think&Cite 在处理复杂生成任务时，能够更灵活地进行推理，并在生成质量和引用一致性上超越了现有的方法。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯