基于一段文本提問(wèn)時(shí),人類(lèi)和大模型會(huì )基于截然不同的思維模式給出問(wèn)題。大模型喜歡那些需要詳細解釋才能回答的問(wèn)題,而人類(lèi)傾向于提出更直接、基于事實(shí)的問(wèn)題。
如果要你負責企業(yè)培訓,培訓結束需要出一份考試題目,那如今你可以選擇將培訓材料交給大模型,由大模型來(lái)負責出題并給出參考答案。
不過(guò)由大模型給出的考題,和人類(lèi)出的題目究竟有沒(méi)有差別,以及有哪些差別?
最近,加州大學(xué)伯克利分校、沙特阿拉伯阿卜杜拉國王科技城(KACST)和華盛頓大學(xué)的研究人員發(fā)表了一項研究,首次系統評價(jià)了大模型提問(wèn)的能力,并指出大模型和人類(lèi)的提問(wèn)模式存在顯著(zhù)差異。
論文地址:https://arxiv.org/pdf/2501.03491
評價(jià)提問(wèn)的四個(gè)維度
這項研究基于維基百科的文本,將文本拆分為 86 萬(wàn)個(gè)段落,之后通過(guò)亞馬遜 Mechanical Turk 眾包平臺,由人類(lèi)參與者為每個(gè)段落撰寫(xiě)對應的題目及答案,人類(lèi)給出的文本將作為評估大模型的基準。
圖 1:大模型出題并評價(jià)的模式
之后,研究人員將這些段落交給主流的大模型,包括閉源的 GPT-4o 和開(kāi)源的 LLaMA-3.1-70b-Instruct,由大模型根據段落內容及上下文提問(wèn),之后對問(wèn)題的評價(jià)也由大模型進(jìn)行。
對問(wèn)題的評價(jià)共包含 6 個(gè)指標,分為 2 組。前三個(gè)標準評估問(wèn)題本身,而第二組標準負責評估反映問(wèn)題質(zhì)量的潛在答案。首先介紹與答案無(wú)關(guān)的標準。
1. 問(wèn)題類(lèi)型
對于人類(lèi)來(lái)說(shuō),選擇問(wèn)哪個(gè)問(wèn)題具有主觀(guān)性。這項研究定義了十種問(wèn)題類(lèi)型,例如驗證 / 確認問(wèn)題,具體事實(shí)與數據問(wèn)題及身份和歸屬問(wèn)題等。
2. 問(wèn)題長(cháng)度
主要測量的是組成問(wèn)題的單詞數量。除了直接比較人類(lèi)和大模型所生成的問(wèn)題長(cháng)度外,該研究還考察了問(wèn)題長(cháng)度與問(wèn)題類(lèi)型之間的關(guān)系。
3. 上下文覆蓋率
上下文通常包括多個(gè)句子,問(wèn)題可能只針對一個(gè)句子中的一個(gè)事實(shí),或者需要跨越多個(gè)句子進(jìn)行推理。這項標準旨在反映問(wèn)題覆蓋文本內容的長(cháng)度,研究還分析了在生成過(guò)程中,大模型是否會(huì )有傾向性地關(guān)注上下文中的哪些特定部分。
4. 可回答程度
一個(gè)問(wèn)題的關(guān)鍵質(zhì)量標準是它是否可以在特定知識的基礎上被精確地回答。具體來(lái)說(shuō),生成的提問(wèn)應在提供上下文的情況下可回答,而非是模棱兩可的。
5. 罕見(jiàn)性
大模型是在互聯(lián)網(wǎng)上廣泛可用的常識上進(jìn)行訓練。因此,即使沒(méi)有明確提供上下文,大模型仍然可以進(jìn)行提問(wèn),因此需要評估問(wèn)題相對于其預訓練數據的罕見(jiàn)程度,從而判斷大模型究竟是有的放矢地提問(wèn),還是問(wèn)給出一些泛泛而談的問(wèn)題。
6. 答案所需的長(cháng)度
除了問(wèn)題長(cháng)度外,所需答案的長(cháng)度是衡量提問(wèn)模式的一個(gè)更有效的指標。然而,由于生成模型的回答往往冗長(cháng)且包含很多無(wú)用細節,所以首先要明確提示模型提供最短的文本作為回答,并指導模型在一定的字數限制內生成答案。此外,研究者還會(huì )對這些答案進(jìn)行額外評估,以確定是否可以用更少的詞達到相同的質(zhì)量評級。
大模型 vs.人類(lèi),問(wèn)題差異在哪
研究結果顯示,首先:在問(wèn)題類(lèi)型上,與人類(lèi)相比,大模型更傾向于提出需要描述性、更長(cháng)答案的問(wèn)題,大約 44% 的人工智能生成問(wèn)題是這一類(lèi)。
這可能是因為大模型在訓練過(guò)程中接觸到了大量描述性文本。而人類(lèi)傾向于提出更直接、基于事實(shí)的問(wèn)題,例如核查具體的事實(shí)和數字,或者人物、地點(diǎn)、事件等。
而在問(wèn)題長(cháng)度上,,大模型生成的問(wèn)題長(cháng)度更長(cháng),而且不同模型對問(wèn)題長(cháng)度的偏好有所不同,例如 GPT-4o 生成的描述性問(wèn)題更長(cháng)。而人類(lèi)生成的問(wèn)題更短,且不同類(lèi)型的問(wèn)題間長(cháng)度差異較大。
圖 2:大模型提問(wèn)的問(wèn)題長(cháng)度,前兩行是人類(lèi)參與者的問(wèn)題長(cháng)度
而在上下文覆蓋上,人類(lèi)產(chǎn)生的問(wèn)題能更全面地覆蓋上下文信息,包括句子級別和詞語(yǔ)級別。這意味著(zhù)相比人類(lèi),大模型的提問(wèn)難以更全面地覆蓋所有文本,往往會(huì )揪著(zhù)一個(gè)細節去提問(wèn)。
圖 3:大模型和人類(lèi)提出問(wèn)題對應的上下文在句子和單詞層面的覆蓋比
更值得關(guān)注的是,大模型更關(guān)注文本的前部和后部,而忽略中間部分,這一點(diǎn)之前的研究也有提及。
圖 4,大模型提問(wèn)對不同位置的段落的覆蓋情況
對于提出的問(wèn)題是否可以被解答,需要根據上下文信息分別判斷。如果提問(wèn)所依據的文本包含了背景介紹,此時(shí)大模型生成的問(wèn)題通常有清晰的答案。而如果文本中缺少上下文信息,缺乏常識的大模型生成的問(wèn)題的可回答性會(huì )顯著(zhù)下降,甚至有些問(wèn)題無(wú)法回答。
圖 5,對比文本包含上下文以及不包含上下文時(shí),大模型提出的問(wèn)題時(shí)具有可回答度的評分分布
類(lèi)似的,由于生成模型的特性,大模型生成的問(wèn)題通常需要更長(cháng)的答案、包含更多細節。同時(shí)大模型生成的答案可壓縮性較差:盡管可以壓縮,但仍然需要比人類(lèi)更長(cháng)的答案。
圖 6:大模型和人類(lèi)提出問(wèn)題對應的回答的長(cháng)度
研究 AI 提問(wèn)的意義
這項研究中,交給 AI 提問(wèn)的只是一個(gè)段落,而非具有更豐富上下文的文章。未來(lái)的研究,需要考察的是大模型面對更長(cháng)的文本,甚至是多篇長(cháng)文本組成的書(shū)籍時(shí)會(huì )提出怎樣的問(wèn)題,并考察不同閱讀難度、不同學(xué)科背景的文本。
如今 AI 生成的提問(wèn)在商業(yè)產(chǎn)品中變得越來(lái)越普遍。例如,亞馬遜的購物助手會(huì )建議與產(chǎn)品相關(guān)的問(wèn)題,而搜索引擎 Perplexity 和 X 的聊天機器人 Grok 則使用后續問(wèn)題來(lái)幫助用戶(hù)深入了解主題。
由于 AI 問(wèn)題具有于區別于人類(lèi)提問(wèn)者的獨特模式,我們就可以據此測試 RAG 系統,或識別 AI 系統何時(shí)在編造事實(shí)。
對大模型提問(wèn)模式的了解,還可以幫助用戶(hù)編寫(xiě)更好的提示詞,無(wú)論是希望 AI 生成更類(lèi)人的問(wèn)題,還是要求有特定特征的問(wèn)題。
隨著(zhù)人們越來(lái)越依賴(lài)大模型,本文最初描述的基于大模型出考試題,將會(huì )在未來(lái)變得越來(lái)越普遍,進(jìn)而潛移默化地影響人類(lèi)學(xué)生的思考模式,也許會(huì )讓我們的下一代變得啰啰嗦嗦,或者看文章時(shí)只關(guān)注特定細節,尤其是頭尾部的(考核中的重點(diǎn))。
不過(guò)大模型的提問(wèn)模式也是可以微調的,知道了大模型提問(wèn)和人類(lèi)的差異,我們就可以有針對性地進(jìn)行改變。
參考資料:
https://arxiv.org/pdf/2501.03491
Copyright 2025 //m.mrigadava.com/ 版權所有 豫ICP備2021037741號-1 網(wǎng)站地圖