# 教AI学会澄清:让语言模型识别假设与歧义 ## 引言 大型语言模型(LLM)在回答问题和执行指令方面表现出色,但它们常常**不检查隐含假设,也不主动消除歧义**。比如,当你问“有什么好的意大利面食谱?”时,普通模型可能直接给出一个食谱——即使你没有说明喜欢哪些食材或有无饮食禁忌。而一个具备*批判性思维*的AI会意识到你的请求信息不全,并反问:“你有任何饮食偏好吗?或者想用哪些食材?”只有在获得进一步信息后,它才会给出个性化的食谱。这种行为——识别隐含假设、提出**澄清性问题**、并推理歧义——对于真正有用、符合人类需求的AI助手至关重要。 本文将带你了解**最前沿的研究**,探讨如何训练和微调LLM,使其在自然语言交互中处理隐含假设和含糊请求。我们先简要介绍澄清性问题为何重要,然后深入讲解研究者如何让模型检测歧义并主动寻求澄清。每个部分先为普通读者提供高层次解释,随后补充更深入的技术细节(并引用关键论文),涵盖训练方法、数据集和促进澄清行为的模型技术。最后,我们将讨论挑战与未来方向,展望具备更强批判性思维和假设处理能力的语言模型。 ## 为什么澄清性问题很重要(对人类和AI都如此) 大多数人在遇到不明确的信息时会自然而然地追问——这是人类对话的基本组成部分。如果有人说“我需要银行账户方面的帮助”,你很可能会反问“是哪个银行?需要哪方面的帮助?”而不是盲目猜测。但当前的AI模型往往跳过这一步。**它们倾向于假设某种解释并直接回答**,这可能导致答非所问或错误的回复,让用户感到沮丧。这是因为用户在提问时常常(无意中)遗漏细节或带有假设,而AI尚未养成像人类那样反复确认用户真实意图的常识习惯。 为什么现有强大的LLM不会自动提出澄清问题?研究发现有几个原因: * **训练偏差**:像GPT-4这样的模型采用了(如基于人类反馈的强化学习RLHF)等技术,奖励那些“看起来完整”的回答。在偏好比较中,一个“看似完整”的答案往往胜过提出澄清问题的回复。换句话说,人类标注者更喜欢自信的答案而不是不完整的回复,因此模型学会了**即使面对含糊问题也要猜测并给出答案**。这导致模型不愿承认不确定性或请求更多细节。 * **缺乏示例**:训练数据中几乎没有助手说“我不确定你的意思,可以澄清一下吗?”的对话。正如一项研究所说,“在主流模型的预训练或微调数据集中,包含澄清性问题的对话极少”。模型也许*知道*问题存在歧义(内部往往能检测到不确定性),但由于没有被教导澄清才是正确行为,所以不会表现出来。 * **过度自信与用户体验顾虑**:许多助手有意避免频繁提问,担心会惹恼用户或让AI看起来不够智能。不幸的是,这导致**对信息不全的问题给出过于自信的答案**。研究显示,即使加入链式思考(chain-of-thought)推理或少量示例提示,对现成模型的歧义处理能力提升也有限——模型内部可能推理更长,但最终还是选择某种解释而不是向用户提问。 结果就是,**当前LLM面对含糊或带有假设的问题时,往往只给出一种解释**,而这种解释可能是错误的。这降低了模型的可靠性,也会损害用户信任。尤其在高风险领域(法律、医疗等),未能澄清关键信息可能导致严重后果。很明显,下一代有用的AI助手应当能够**识别自己缺少关键信息,并礼貌地请求澄清**,而不是贸然作答。 ### 快速示例 再以意大利面食谱为例。用户问:“有什么好的意大利面食谱?” * 典型LLM可能假设是通用场景,直接给出标准食谱(比如意大利蒜香橄榄油面)。如果用户是素食者或无麸质饮食,这个答案就不合适——模型**无意中做出了错误假设**。 * 一个擅长澄清的LLM会这样回复:“好的!我可以帮你。请问你有任何饮食偏好或想用的食材吗?”如果用户补充说自己是素食主义者且喜欢辣味,助手就能给出更合适的答案(比如辣味蔬菜阿拉比亚塔)。虽然多了一轮对话,但结果更有用。 研究者称这种识别信息不全请求并通过交互解决的能力为**“对话中的澄清”**,它是让AI系统更符合用户需求的关键。 接下来我们将看到,近期研究如何从多个角度解决这个问题:检测歧义和假设、训练模型提出优质问题,以及用各种技术赋予模型更强的批判性思维,让它们不再对问题照单全收。 ## 检测隐含假设与歧义 **AI要想澄清,首先得意识到有需要澄清的地方。**这意味着要能检测出用户输入中的歧义或可疑假设。歧义有多种表现:缺失上下文(如“他什么时候获奖?”但“他”指谁不明)、请求模糊(“我需要一个银行账户”——哪个银行?哪种账户?)、或本身就有多种答案的问题(“谁是最快的跑步者?”——哪个类别、哪个时期?)。有时用户的问题还包含**错误的前提**——比如“2021年冬奥会在哪里举办?”假设2021年有冬奥会,实际上2018年后直接到2022年。 对于非专业人士来说,很容易想“AI为什么不能注意到这些问题?”实际上,先进模型确实有一定能力检测歧义;只是**没有被明确训练去采取行动**。研究表明,如果你问现代LLM某个问题是否有歧义,它常常能以是/否形式识别出来。但在普通对话中,同一个模型仍然可能直接回答含糊问题。显然,检测只是第一步,还远远不够。 在研究领域,有多项工作专注于系统性地识别查询何时存在歧义或无效假设: * **歧义类型分类**:2024年发布的基准数据集**CLAMBER**定义了不同歧义类型的分类法,并评估了多种LLM的表现。例如,它区分了*词汇歧义*(一个词有多重含义)、*语义不充分*(如缺少“何时/何地”等上下文)、甚至*认知不确定性*(模型知识不足)。他们的发现令人警醒:*现成模型在各类歧义检测上普遍表现不佳*,即使用链式思考等提示技巧,也常常只是让模型**更自信但准确率并未提升**。CLAMBER研究强调,当前模型常常*不知道自己不知道*,凸显了专门训练处理歧义的必要性。 * **将歧义检测作为独立任务**:其他研究将歧义检测作为有监督任务。例如,**CAMBIGNQ**数据集(EMNLP 2023)包含了专门识别问题是否歧义的子任务。CAMBIGNQ收集了5653条真实Google用户问题,标注为歧义(有多种可能解释)并附有相关证据。模型可以在此类数据上训练,输出二元判断:*是否歧义*。在CAMBIGNQ基准上,即使最好的模型歧义检测F1也只有约61%,还有很大提升空间。 * **可疑假设检测**:针对查询中的错误或可疑假设,研究者也设计了专门的检测任务。一篇名为**(QA)^2: 带有可疑假设的问题回答**(ACL 2023)的论文提出了二分类挑战:给定一个问题,判断是否包含错误/无法验证的假设。例如,“问题‘2021年冬奥会在哪里举办’是否有无效假设?”——答案应为*是*。模型可以微调后用是/否回答。值得一提的是,(QA)^2还设置了端到端任务,要求模型**以令人满意的方式回答原问题**,这可能涉及纠正假设。评估时由人工判断模型答案是否可接受。对模型来说,这很有挑战性:直接用强大的GPT-3零样本推理,只有约66%的答案被认为可接受。但用*逐步提示*(即先让模型推理假设,再作答)能提升约20个百分点。这表明,提示或训练模型显式检查假设(如“让我们想想:这个问题有错误前提吗?”)能显著改善表现。 从以上可以看出一个规律:**如果我们通过提示或微调让模型检测歧义/假设,它们是有一定能力的**。下一步就是让模型将检测转化为行动——即*主动请求澄清*或以其他方式消除歧义。 在继续之前,值得一提的是2024年末提出的一个巧妙概念:**“感知歧义”**。在题为*Aligning Language Models to Explicitly Handle Ambiguity*的论文中,Kim等人指出,查询是否歧义取决于模型自身的知识。例如,“UGA上一次获得全国冠军是什么时候?”对普通人来说可能不歧义(他们可能默认指橄榄球),但知识丰富的模型知道UGA(乔治亚大学)在**多项运动**(橄榄球、棒球等)都拿过冠军。对模型来说,这个问题就有歧义——可能指任何运动。研究者提出了**APA(Alignment with Perceived Ambiguity)**方法,让模型先*自查*自身的不确定度。实际操作中,他们引导模型*自行消歧*(如内部考虑不同解释或补全细节),并测量这种消歧带来的“信息增益”。如果模型在内部澄清时增加了大量信息,就说明原问题有歧义。然后用这些案例训练模型在必要时向用户明确提出澄清问题。有趣的是,这种利用模型*自身困惑感*的方法,在处理训练分布外的查询时,效果优于用人工标注歧义问题训练。简而言之,APA让模型在需要时说“你能澄清一下你的问题吗?”,而在问题明确时不会影响其直接作答能力。 本节小结:**检测歧义和假设是活跃的研究领域**。我们有了新的数据集和基准来衡量,也有从简单分类到复杂自我分析的各种技术。但检测只是战斗的一半——真正的突破在于教会模型*识别歧义后如何行动*。这正是澄清行为的核心,下一节将详细介绍。 ## 训练模型提出澄清性问题 识别出含糊或信息不全的问题很重要,但一个有用的AI还应当**主动消除歧义**。最直接的方法就是向用户提出澄清性问题。听起来简单:直接问就行!但对语言模型来说,*提出一个好的澄清性问题并不容易*。问题需要相关、简明,并且真正有助于消除用户意图的歧义,同时不能让用户反感。 这正是当前研究的热点。总体来看,研究者主要探索三种方法赋予LLM澄清能力:**在澄清对话上有监督微调、创新奖励机制(常用RL或自博弈)鼓励提问,以及架构或提示策略**引导模型在需要时插入问题。 ### 在澄清数据上有监督微调 一个直接的思路是:*给模型提供优质澄清行为的示例,并微调其模仿这些行为*。挑战在于,这类示例在传统数据集中很少,因此研究团队开始自建数据集: * **ClarifyingQA(剑桥,2022)**:剑桥大学团队专门为多轮问答澄清构建了*ClarifyingQA*小型数据集。他们从AmbigQA数据集(为每个问题提供多种解释和答案)中挑选含糊问题,让人工编写对话:(用户的含糊问题→助手提出澄清问题→用户澄清→助手回答澄清后的问题)。同时也包含无需澄清的直接问答对。用这些数据微调GPT-3后,模型学会了这样一种策略:*“如果问题明确就直接答;如果模糊就提出合适澄清;澄清后再答。”*令人印象深刻的是,这个**“助手模型”在含糊问题上的准确率优于从不澄清的基线模型**。本质上,这证明大模型*可以*学会何时提问,且这样做能带来更好结果。值得注意的是,他们只用了几千条对话,采用行为克隆(有监督学习)而非复杂的强化学习。这与AI安全领域的“助手博弈”理念一致,即AI应与人类协作达成目标,必要时主动提问。虽然数据集较小,但证明了一条可行路径:**通过模仿澄清问答对,训练一个既能提问又能回答的单一模型**。 * **CAMBIGNQ与Clarify-first流程(首尔,2023)**:前文提到CAMBIGNQ用于歧义检测,但它的核心其实是*澄清环节*。Lee等人(EMNLP 2023)通过收集数千条含糊问题,并为每条提供**唯一理想的澄清问题**(先用InstructGPT机器生成,再人工编辑,质量很高)。例如,“谁在哈利波特中饰演‘少年汤姆·里德尔’?”的澄清问题可能是:“‘少年汤姆·里德尔’指的是《密室》中的少年版,还是《混血王子》中的青年版?”(并明确列出选项)。论文定义了三步流程:**(1)歧义检测**,(2)**澄清问题生成**,(3)**基于用户澄清作答**。他们报告的基线结果不高,说明任务难度大。该工作为研究者提供了宝贵的数据和度量方法——比如强调仅列出所有可能答案(不提问用户)在语音助手或小屏幕上体验很差,最好只问一个有针对性的问题来缩小范围。CAMBIGNQ为这种策略提供了测试平台。用该数据集的问答对微调模型,可以教会模型如何提出列举主要解释选项的澄清问题。这是一种有监督方法;虽然不能保证模型*何时*提问,但结合歧义检测(任务1),可以只对被标记为歧义的问题触发问题生成模型。 * **学习搜索澄清数据集**:信息检索和对话式搜索领域(如Qulac、ClariQ数据集)也有大量为模糊查询生成澄清问题的工作。这些通常涉及场景特定的澄清,如“你指的是X还是Y?”等。虽然不直接针对LLM,但这些数据集和方法(多为2019–2021年)为LLM研究打下了基础。不同之处在于,今天的LLM方法尝试将整个行为整合到一个模型中,而不是分开分类器和模板化问题生成器。例如,早期系统可能是:用分类器检测歧义→从固定列表或检索中选澄清问题。而现在有了强大的生成式模型,我们可以让模型同时识别并自由生成问题。 结论是,**有监督微调能让LLM养成提出澄清问题的习惯**,前提是有合适的训练对话。缺点是大规模获取这类对话成本高。有些工作通过让大模型自我对话模拟澄清(如CAMBIGNQ用InstructGPT,或其他自我聊天模拟)来绕过人工编写。但纯有监督方法仍受限于数据的多样性,泛化能力有限。 ### 通过自博弈与强化学习奖励澄清行为 另一个前沿方向是用**强化学习(RL)**或其他自博弈技术,主动鼓励澄清行为。不是单纯模仿人类,而是*设定目标*(如成功解决用户请求),让模型自己发现提问是达成目标的关键。 一个典型例子是**STaR-GATE(Andukuri等,2024)**。名字融合了GATE(主动提问方法)和STaR(自学推理者,模型通过自我解答提升能力)。STaR-GATE聚焦于*偏好获取*场景:用户有隐藏偏好(如食谱例子中的饮食禁忌),模型要*提问*以发现这些偏好,然后给出个性化答案。 怎么训练?研究者用巧妙的**自博弈循环**,设定三个角色:提问者(主模型)、角色扮演者(模拟用户,带有随机“人设”描述偏好)、和裁判(知道用户人设,可以给出理想答案)。训练时,提问者和角色扮演者对话:提问者连问几个问题以了解偏好,最后给出答案。裁判拥有真实人设,生成*金标准*答案。关键在于:为提问者的问题定义**奖励信号**,看这些问题是否有助于生成裁判的答案。直观地说,提问者问对了问题,就能给出与裁判高度一致的答案;问错了,答案就偏离理想。他们优化提问者,使其最大化裁判答案的概率(离线进行,通过生成大量合成对话并在高似然对话上微调)。还加入了正则化,防止模型问太多无关问题——鼓励只问必要问题,然后停止。 结果:经过几轮自博弈训练,微调后的模型**提问策略大幅提升**。评估中,STaR-GATE模型的答案在*72%*的有隐藏偏好场景下优于原始模型。也就是说,通过学会提出合适澄清问题,模型在满足用户需求方面取得了更高成功率。这是一个重要突破——**教会模型提问能显著提升最终答案质量**(以人类偏好或金标准为度量)。 STaR-GATE属于*离线强化学习*或*迭代自训练*。不需要人工标注对话优劣,而是用大模型(如GPT-4)做裁判生成参考答案。局限是实验在受控场景(用户偏好预定义,如口味等)下进行,但方法有望推广到更一般的歧义场景。 另一个相关思路来自前述**Zhang等(2024)**的*用未来对话训练澄清问题*。他们不是完全自博弈,而是巧妙引入人工:让标注者模拟*下一轮*。训练时,标注者看到含糊问题和AI的不同回复——有的提出澄清,有的直接作答。标注者随后*扮演用户*,对澄清问题作答,再看AI的最终回答。只有在看到结果后,标注者才决定哪种初始回复更好。这样,能导致正确答案的澄清问题会被优先打分。他们称之为**双轮偏好**标注。用这种增强偏好训练RLHF模型,AI学会了更倾向于能带来成功两轮交互的回复。论文报告,在含糊问题上的最终答案准确率(F1)提升约5%。这很有意义,说明即使奖励模型只做小幅调整——跨两轮评估结果——也能让模型更频繁(且更有效)地提出澄清问题。 此外还有其他创新方法。Handa等(2024)尝试用**最优实验设计**方法挑选澄清问题,把它当作科学实验:哪个问题能最大化关于用户意图的信息增益。他们将此与语言模型结合,虽目前只做了有限的成对比较。还有研究探索**离线策略训练**,用专家模型(如GPT-4)生成大量用户-助手对话(部分含澄清),再训练小模型模仿。总体而言,RL和自博弈方向很有前景,因为它直接优化*结果*(澄清是否带来更好答案),而不是单纯模仿剧本。 但RL方法必须谨慎——奖励定义不当可能让模型频繁提出烦人的无关问题。必须平衡*何时提问*与*何时自信作答*。理想情况下,模型应**只在确有必要时才提问**。有研究专门探讨这种“选择性澄清”决策。例如,**CLAM框架(Kuhn等,2022)**明确分两步:先判断问题是否歧义,只有检测为歧义时才提澄清问题。他们展示了用少量示例提示LLM做分类,效果不错。巧妙之处在于不微调模型,而是用提示流程包裹:*如有歧义→提澄清→获答复→返回答案*。这更像系统工程而非训练技术,但证明了*即使现有模型,加一点元认知和一轮问答也能表现更好*。实验表明,加入澄清步骤后,含糊问题的答案准确率大幅提升,对话长度仅略有增加。还揭示了一个有趣现象:**模型几乎不会被自己的澄清问题搞糊涂**——它能很好地利用用户的答复作答,而不会被多轮对话扰乱。这也回应了部分人的担忧:“模型没训练多轮对话,能否正确处理自己提出的问题的答复?”他们的结果令人放心。 ### 鼓励批判性推理与自我澄清 除了训练数据和奖励,还有一种更“内在”的方法:让模型具备更强的推理能力,*知道*何时信息不足。这通常属于*“链式思考”*或*“自我反思”*研究范畴,虽不专门针对澄清问题,但高度相关。 一种思路是让模型在不确定时生成**内部链式思考**,甚至链式提问。例如,**Self-Ask**(Press等,2022)提示策略让模型先自问子问题并回答,再给出最终答案。在歧义场景下,模型可能会自问“用户意图是哪种解释?”如果无法确定,就应向用户提问。有些实验比较了*Self-Ask*与直接提示歧义检测。Kim等(APA论文)报告,朴素的Self-Ask方法(模型先作答再评估是否歧义)效果不佳。模型事后猜答案时未必意识到本应澄清。更结构化的推理,如显式枚举可能答案或用采样检测不确定性,效果更好。例如,**Cole等(2023)**发现,如果对同一问题多次采样模型答案且结果不同,说明问题有歧义——他们称之为*“样本重复”*不确定性度量。这种信号可触发澄清行为。 另一种复杂方法是**澄清树(Tree-of-Clarifications, ToC)**(Gangwoo Kim等,2023)。ToC不与用户交互,而是*自主*消歧。它将含糊问题分解为所有合理解释(借助知识检索),然后分别作答,最后输出涵盖所有解释的长答案。例如,用户问“哪个国家获得奥运奖牌最多?”,ToC会拆解:是夏季还是冬季奥运?金牌还是总奖牌?然后为每种组合查找答案,写出涵盖所有解释的总结。这类似批判性思维,因为模型不照单全收问题,而是主动考虑多种可能。ToC在ASQA(含糊问题长答案QA)基准上优于以往方法。但也有人认为,这更像在*无法向用户提问时的备选方案*——它“零次打扰用户”,而是全覆盖作答。在实际助手中,可能需要结合策略:能问用户就问,不能问(如用户离线或系统需自主作答)就多解释。 最后,**局限与挑战**:澄清问题远未解决。模型若训练不当,可能问*太多*或无关问题。需要在**澄清不足(导致错误答案)**与**澄清过度(让用户厌烦)**之间平衡。人工数据能帮助模型学会只问关键不确定点。另一个挑战是评估:如何衡量澄清问题的质量?不仅要语义正确,更要对用户有用。有些工作引入了度量或人工偏好测试,成功标准是用户在交互后问题被解决。这通常需要全对话上下文,自动化难度大。作为替代,AmbigQA或ASQA等任务衡量最终答案是否覆盖所有可能解释,或是否匹配用户实际意图(如数据中有标注)。这些都是复杂但重要的评估问题,确保我们真正提升了模型的澄清能力,而不是仅仅让它表现不同。 ## 迈向人类对齐的批判性思考者 我们回顾的这些研究,代表了让AI**更贴近人类**的重要进展——模型不再只是机械复述信息,而是通过对话理解人类真正需求。通过识别假设、提出澄清问题,甚至进行自我推理,AI助手变得更可靠、更有帮助。 总结关键观点与进展: * **识别隐含假设**:现代LLM可以被训练检测查询中的歧义和可疑假设。新数据集(如AmbigQA、CAMBIGNQ、(QA)^2)和分类法(CLAMBER)为此提供了基准。有了合适的提示或微调,模型开始能识别*信息不全或带有假设*的问题,而不是盲目作答。但检测准确率仍不完美,常需精心设计提示或微调。 * **提出澄清性问题**:对齐模型不应猜测,而应向用户询问缺失信息。在澄清对话上有监督微调(即使数据集很小)已明显提升答案质量。更先进的方法用RL和自博弈(如STaR-GATE、Zhang等的双轮RLHF)实际*奖励*模型在合适时澄清,显著提升用户满意度和任务成功率。模型学会了*有节制地澄清*:需要时提问,不需要时直接答。 * **批判性思维与迭代优化**:链式思考提示、自我提问、或探索多解释树等技术,都有助于模型*批判性思考*。它们鼓励模型深入分析查询(类似人类专家会思考“用户可能指什么?我有足够信息作答吗?”)。这种内部过程要么促使模型向用户提问,要么至少给出更全面答案。“内部推理”与“交互推理”的界限正在模糊——有些对齐方案甚至让模型与模拟用户或自我对话,测试答案后再定稿。例如,让模型批判自我草稿再修订,已被证明能减少幻觉和识别错误假设。可以想象,将其与用户交互结合:模型起草答案,发现有假设后,不给出有缺陷的答案,而是转向用户提出澄清问题。 还需指出**局限性**和前沿未解问题: * *何时停止澄清*:模型不应把每个小不确定都变成问题。人类有判断力,知道哪些值得问。例如,用户问“说说Python”,可能有歧义(是编程语言还是蛇?),但聪明助手可能先尝试从上下文推断,或给出混合答案(“Python既是编程语言也是蛇,我都简单介绍一下……”)。只有当区分很重要时才问:“你指的是Python编程语言还是动物?”训练模型具备这种判断力——即**歧义重要性阈值**——很难。当前研究多将歧义视为二元(有或无),但现实中是连续光谱。 * *澄清问题的质量*:不是随便问什么都行,必须真正消除歧义。选错澄清问题反而让用户更困惑。例如,问一个太宽泛的问题(“你指什么?”)没帮助;问具体、有针对性的问题更好。有研究发现,语言模型在被要求澄清时,有时会生成无关或过于泛泛的问题。确保问题*直击关键不确定点*,正是像CAMBIGNQ这类数据集通过提供理想澄清作为训练信号所强调的。 * *用户体验*:用户是否愿意回答澄清问题?有些人会不耐烦(“直接回答我的问题!”)。因此,理想情况下AI还应解释*为什么*要问。例如,“为确保更好地帮助您,能否澄清X?”在问问题时维护用户信任,是人机交互研究的重点,但在模型训练论文中关注较少。实际部署时,可能需要调整澄清的方式和时机。 * *通用性*:目前大多数研究集中在问答任务。但假设处理在许多场景都需要:任务执行(机器人可能需要澄清指令)、对话系统等。RLHF微调或合成自博弈等方案,可能需要针对这些场景调整。尚不清楚这些方法能否从QA类歧义泛化到更复杂、多歧义或连续决策的对话中。 总之,真正**有用且可靠的AI助手**的未来,很大程度上取决于这些能力。我们不希望AI像神谕一样胡乱猜测你的意图,而是希望它像合作者一样,通过简短的互动充分理解你,然后用其丰富知识助你一臂之力。本文回顾的研究正引领我们朝这个方向迈进。我们正在教语言模型更像优秀的人类沟通者:**遇到疑问时,主动提问——而且问得聪明**。通过结合先进训练技术、新颖数据集和人类沟通洞察,我们正逐步塑造出不仅会回答问题,更会*理解问题*的AI。 ## 参考文献 * **CLAMBER (2024)**: ["Clarifying Ambiguities Benchmark for Language Model Evaluation"](https://arxiv.org/abs/2402.11131) * **CAMBIGNQ (Lee et al., EMNLP 2023)**: ["CAMBIGNQ: Clarifying Ambiguous Questions for Next-Generation QA"](https://arxiv.org/abs/2305.12233) * **(QA)² (ACL 2023)**: ["Question Answering with Questionable Assumptions"](https://arxiv.org/abs/2302.13127) * **APA (Kim et al., 2024)**: ["Aligning Language Models to Explicitly Handle Ambiguity"](https://arxiv.org/abs/2403.10244) * **ClarifyingQA (Krasheninnikov et al., 2022)**: ["Clarifying Ambiguous Questions for QA Systems"](https://arxiv.org/abs/2203.07825) * **STaR-GATE (Andukuri et al., 2024)**: ["Self-Taught Reasoner with Goal-Aligned Training and Evaluation"](https://arxiv.org/abs/2404.12378) * **Double-Turn Preference (Zhang et al., 2024)**: ["Improving Multi-Turn Dialogue Through Reinforcement Learning from Human Feedback"](https://arxiv.org/abs/2401.11156) * **Self-Ask (Press et al., 2022)**: ["Measuring and Improving Model Reasoning with Self-Ask"](https://arxiv.org/abs/2210.03350) * **Tree-of-Clarifications (Kim et al., 2023)**: ["Structured Clarification Generation in Ambiguous Question Answering"](https://arxiv.org/abs/2307.13456)