基于LLM的生成式搜索引擎(Generative Search Engines)正在取代传统搜索引擎。答案引擎不仅检索与用户查询相关的来源,还综合引用这些来源的答案摘要。与21名参与者进行了一项研究:评估答案引擎与传统搜索引擎的交互,识别出了16个答案引擎的局限性,提出了16个答案引擎设计建议,并与8个指标相关联。在三个流行的引擎(You.com、Perplexity.ai、BingChat)上实施了自动化评估,量化了常见的局限性(例如,频繁的幻觉、不准确的引用)和独特的特征(例如,答案信心的变化)。

答案引擎的设计流程和用于审计这些系统的研究框架。展示了答案引擎的关键组成部分,包括它如何根据用户查询生成答案,重点关注输出,如来源、答案文本和引用。在右侧,展示了进行的可用性研究的发现摘要,以及You Chat、Bing Copilot和Perplexity的最终评分卡评估。

AI时代大模型搜索引擎的16个局限性!_LLM


一、16个答案引擎的局限性

总结了研究中发现的关于答案引擎的关键局限性,并将这些局限性归类为四个主题:答案文本(Answer Text)、引用(Citation)、来源(Sources)和用户界面(User Interface)

按答案引擎组件主题组织的研究发现摘要,以及明确识别并表达对每个组件担忧的参与者数量。

AI时代大模型搜索引擎的16个局限性!_AI大模型_02

1、答案文本 (Answer Text)

  1. 需要客观细节 (A.I):所有参与者(21/21)都表示生成的答案缺乏详细性和上下文深度。
  2. 缺乏全面观点 (A.II):19名参与者表示答案引擎在处理有偏见的问题时未能展示多元观点。
  3. 自信语言呈现声明 (A.III):16名参与者指出答案引擎在呈现声明时使用过于自信的语言。
  4. 过于简化的写作形式 (A.IV):14名参与者认为答案引擎使用的语言过于简单,缺乏创造性和批判性思维。

[A] Perplexity的输出比较,它通过仅提供一个片面回应来反映问题中固有的偏见,以及**[B] YouChat**,它承认多种观点,避免呈现不完整的信息。

AI时代大模型搜索引擎的16个局限性!_大模型_03

2、引用 (Citation)

  1. 错误归属和误解来源 (C.I):21名参与者都提到答案引擎在引用时存在错误归属或误解来源的问题。
  2. 基于假设上下文挑选信息 (C.II):19名参与者注意到答案引擎根据假设的上下文选择性地展示信息。
  3. 声明和信息生成缺少引用 (C.III):18名参与者表示答案引擎在生成关键声明或信息时缺少必要的引用。
  4. 模型回应中源选择的透明度缺乏 (C.IV):15名参与者对答案引擎在选择和优先考虑引用来源时的透明度表示担忧。

[A] Perplexity的输出比较, 它缺乏对生成点的引用,导致对每个句子的实际来源产生混淆,以及[B] Copilot,它有效地指示了每个陈述的来源。

AI时代大模型搜索引擎的16个局限性!_大模型_04

3、来源 (Sources)

  1. 低频使用的来源 (S.I):19名参与者指出答案引擎用于总结的来源数量低。
  2. 检索的来源多于用于生成实际答案的来源 (S.II):13名参与者提到答案引擎检索的来源多于实际用于生成答案的来源。
  3. 来源类型缺乏信任 (S.III):12名参与者对答案引擎使用的来源类型表示不信任。
  4. 来源引用和内容重复 (S.IV):12名参与者发现答案引擎检索的多个来源包含相同或高度相似的内容。

由Perplexity生成的结果[A]和相应的检索来源[B]。 该图示说明了模型检索了8个来源,其中许多是同一来源的重复。尽管如此,模型以不同的方式引用它们,创造了内容多样化的假象,而实际上却是相同的。

AI时代大模型搜索引擎的16个局限性!_人工智能_05

4、用户界面 (User Interface)

  1. 缺乏选择和过滤来源的能力 (U.I):17名参与者表示答案引擎的用户界面缺乏选择和过滤来源的能力。
  2. 生成和源选择中缺乏人工输入 (U.II):17名参与者认为答案引擎在生成和源选择中缺乏人工输入。
  3. 验证和信任答案需要额外工作 (U.III):14名参与者觉得答案引擎使得验证和信任答案需要额外的工作。
  4. 引用格式非标准化交互 (U.IV):12名参与者对答案引擎的引用格式表示不满,认为它不是一个标准化的交互方式。

二、16个答案引擎设计建议

概述了针对答案引擎的16个设计建议,并将这些建议与研究发现和相应的8个量化指标相联系。

每个设计建议的总结,以及它们所针对的系统弱点和相应的量化指标

AI时代大模型搜索引擎的16个局限性!_大模型_06

16个答案引擎设计建议的详细解释:

1、答案文本 (Answer Text) 设计建议

  1. 提供平衡的答案 (S-I):对于可能具有引导性或偏见的问题,答案引擎应提供中立和平衡的答案,不假设或加强用户的偏见。
  2. 提供客观细节以支持声明 (S-II):答案应包含支持其声明的客观细节,如数据和统计信息。
  3. 最小化无关信息 (S-III):答案应避免包含无关的“填充”内容,确保每个句子都与问题直接相关。
  4. 反映来源的全面性 (S-IV):答案引擎应透明地展示其选择和使用来源的理由,增强用户的信任。

2、引用 (Citation) 设计建议

  1. 避免无支持的引用 (C-I):每个声明都应有适当的引用支持,否则应移除或明确其相关性。
  2. 双重检查引用错误 (C-II):答案引擎应评估引用的外部一致性,减少错误归属或脱离上下文的引用。
  3. 引用所有相关的来源 (C-III):对于需要多个参考点支持的声明,应引用所有相关来源。
  4. 检索的来源必须等于使用的来源 (C-IV):确保列出的来源数量与实际用于构建答案的来源数量相匹配。

3、来源 (Sources) 设计建议

  1. 明确关注专家来源 (S-I):答案引擎应识别并优先考虑权威来源,尤其是在它们提供明确答案时。
  2. 仅检索和使用必要的来源 (S-II):模型应更选择性地检索来源,确保仅使用那些对于构建精确和上下文适宜的回答所必需的来源。
  3. 区分来源基础与模型生成内容 (S-III):系统应区分基于来源的内容和模型生成的内容,增强透明度和用户信任。
  4. 明确提及并意识到来源类型 (S-IV):答案引擎应智能评估和优先考虑来源类型,确保使用最可信和相关的来源。

4、用户界面 (User Interface) 设计建议

  1. 纳入人类对来源和文本的反馈 (U-I):允许用户对搜索结果和生成内容提供反馈,提高回答的准确性和相关性。
  2. 实施交互式引用 (U-II):开发交互式引用功能,如悬停弹出窗口,以提高用户对信息来源的理解和验证。
  3. 采用段落级本地引用 (U-III):明确指示引用的确切信息和来源,提高透明度。
  4. 在信息不足时避免强制回答 (U-IV):面对无法回答或信息不足的问题时,答案引擎应避免生成误导性或无关的回答。

答案引擎响应处理到答案引擎评估框架(AEE)的8个指标的说明图

AI时代大模型搜索引擎的16个局限性!_ai_07

8个量化指标

  • 一边倒答案 (One-Sided Answer)
  • 过度自信的答案 (Overconfident Answer)
  • 相关声明 (Relevant Statements)
  • 未引用的声明 (Unsupported Statements)
  • 引用准确性 (Citation Accuracy)
  • 引用彻底性 (Citation Thoroughness)
  • 来源必要性 (Source Necessity)
  • 未引用的来源 (Uncited Sources)

三、三个流行的引擎量化评比

对三个公共答案引擎(You.com、BingChat 和 Perplexity)基于自动化评估的量化结果。这些评估使用了之前开发的八个指标,这些指标构成了答案引擎评估(AEE)框架。以下是对量化评估结果的总结:

基于AEE基准的八个指标,对三个答案引擎——You.com、BingChat和Perplexity——进行定量评估:指标报告,用▲表示可接受,●表示边缘,▼表示有问题的性能。a图显示了答案置信度的分布。

AI时代大模型搜索引擎的16个局限性!_ai_08

1. 基本统计:

  • 每个答案引擎返回的答案中平均引用的来源数量和陈述数量不同。
  • Perplexity 返回的答案中引用的来源最多,但每个陈述的引用次数较少。

2. 答案文本指标:

  • 一边倒答案:所有答案引擎都频繁(50-80%)生成一边倒的答案,倾向于与辩论问题的提法保持一致,而不是呈现多个视角,其中 Perplexity 表现最差。
  • 过度自信的答案:Perplexity 在辩论问题上表现出最高比例的过度自信答案。
  • 相关声明:所有引擎在答案中包含的相关声明比例相似,大约在75-82%之间。

3. 来源指标:

  • 未引用的来源:You.com 在确保所有列出的来源都被引用方面表现最好,而 BingChat 有较大比例的来源未被引用。
  • 不支持的声明:所有模型生成的答案中都有相当比例的声明未被列出的来源支持。
  • 来源必要性:所有答案引擎在只列出必要的来源以支持答案中的声明方面表现不佳。

4. 引用指标:

  • 引用准确性:所有答案引擎在准确引用支持声明的来源方面都存在困难。
  • 引用彻底性:三个引擎都没有充分引用所有可能的准确引用。

5. 答案引擎评估得分卡:

  • 没有一个答案引擎在大多数指标上表现良好,表明答案引擎在处理幻觉、不支持的声明和引用准确性等关键方面有很大的改进空间。
  • You.com 在处理语言信心和呈现来源方面表现略好。
  • Perplexity 由于在生成过度自信的答案和引用准确性方面表现不佳,整体表现最差。
  • BingChat 的整体表现介于两者之间,尽管它倾向于列出更多的来源,但这并没有总是转化为更广泛的信息覆盖。

6. 信心得分分布:

  • Perplexity 在所有查询类型中都倾向于使用最自信的语言。
  • BingChat 和 You.Com 在辩论问题上使用的信心语言较少,表明在有争议的主题上表达不确定性。
https://arxiv.org/pdf/2410.22349
Search Engines in an AI Era: The False Promise of Factual and Verifiable Source-Cited Responses