国产一区二区视频在线观看,天天操夜夜夜,亚洲国产成人在线观看,亚洲精品国产第一综合99久久,久久精品国产99国产精品免费看,国产精品一区二区手机看片,亚洲欧美视频二区

UC-伯克利等最新研究:大語(yǔ)言模型就是比人類(lèi)啰嗦-“提問(wèn)的藝術(shù)”仍難參透

來(lái)源: 八星手游網(wǎng) 日期:2025-01-31 14:16:46
八星手游網(wǎng)首頁(yè)免費攻略 → UC-伯克利等最新研究:大語(yǔ)言模型就是比人類(lèi)啰嗦-“提問(wèn)的藝術(shù)”仍難參透

基于一段文本提問(wèn)時(shí),人類(lèi)和大模型會(huì )基于截然不同的思維模式給出問(wèn)題。大模型喜歡那些需要詳細解釋才能回答的問(wèn)題,而人類(lèi)傾向于提出更直接、基于事實(shí)的問(wèn)題。

如果要你負責企業(yè)培訓,培訓結束需要出一份考試題目,那如今你可以選擇將培訓材料交給大模型,由大模型來(lái)負責出題并給出參考答案。

不過(guò)由大模型給出的考題,和人類(lèi)出的題目究竟有沒(méi)有差別,以及有哪些差別?

最近,加州大學(xué)伯克利分校、沙特阿拉伯阿卜杜拉國王科技城(KACST)和華盛頓大學(xué)的研究人員發(fā)表了一項研究,首次系統評價(jià)了大模型提問(wèn)的能力,并指出大模型和人類(lèi)的提問(wèn)模式存在顯著(zhù)差異。

論文地址:https://arxiv.org/pdf/2501.03491

評價(jià)提問(wèn)的四個(gè)維度

這項研究基于維基百科的文本,將文本拆分為 86 萬(wàn)個(gè)段落,之后通過(guò)亞馬遜 Mechanical Turk 眾包平臺,由人類(lèi)參與者為每個(gè)段落撰寫(xiě)對應的題目及答案,人類(lèi)給出的文本將作為評估大模型的基準。

圖 1:大模型出題并評價(jià)的模式

之后,研究人員將這些段落交給主流的大模型,包括閉源的 GPT-4o 和開(kāi)源的 LLaMA-3.1-70b-Instruct,由大模型根據段落內容及上下文提問(wèn),之后對問(wèn)題的評價(jià)也由大模型進(jìn)行。

對問(wèn)題的評價(jià)共包含 6 個(gè)指標,分為 2 組。前三個(gè)標準評估問(wèn)題本身,而第二組標準負責評估反映問(wèn)題質(zhì)量的潛在答案。首先介紹與答案無(wú)關(guān)的標準。

1. 問(wèn)題類(lèi)型

對于人類(lèi)來(lái)說(shuō),選擇問(wèn)哪個(gè)問(wèn)題具有主觀(guān)性。這項研究定義了十種問(wèn)題類(lèi)型,例如驗證 / 確認問(wèn)題,具體事實(shí)與數據問(wèn)題及身份和歸屬問(wèn)題等。

2. 問(wèn)題長(cháng)度

主要測量的是組成問(wèn)題的單詞數量。除了直接比較人類(lèi)和大模型所生成的問(wèn)題長(cháng)度外,該研究還考察了問(wèn)題長(cháng)度與問(wèn)題類(lèi)型之間的關(guān)系。

3. 上下文覆蓋率

上下文通常包括多個(gè)句子,問(wèn)題可能只針對一個(gè)句子中的一個(gè)事實(shí),或者需要跨越多個(gè)句子進(jìn)行推理。這項標準旨在反映問(wèn)題覆蓋文本內容的長(cháng)度,研究還分析了在生成過(guò)程中,大模型是否會(huì )有傾向性地關(guān)注上下文中的哪些特定部分。

4. 可回答程度

一個(gè)問(wèn)題的關(guān)鍵質(zhì)量標準是它是否可以在特定知識的基礎上被精確地回答。具體來(lái)說(shuō),生成的提問(wèn)應在提供上下文的情況下可回答,而非是模棱兩可的。

5. 罕見(jiàn)性

大模型是在互聯(lián)網(wǎng)上廣泛可用的常識上進(jìn)行訓練。因此,即使沒(méi)有明確提供上下文,大模型仍然可以進(jìn)行提問(wèn),因此需要評估問(wèn)題相對于其預訓練數據的罕見(jiàn)程度,從而判斷大模型究竟是有的放矢地提問(wèn),還是問(wèn)給出一些泛泛而談的問(wèn)題。

6. 答案所需的長(cháng)度

除了問(wèn)題長(cháng)度外,所需答案的長(cháng)度是衡量提問(wèn)模式的一個(gè)更有效的指標。然而,由于生成模型的回答往往冗長(cháng)且包含很多無(wú)用細節,所以首先要明確提示模型提供最短的文本作為回答,并指導模型在一定的字數限制內生成答案。此外,研究者還會(huì )對這些答案進(jìn)行額外評估,以確定是否可以用更少的詞達到相同的質(zhì)量評級。

大模型 vs.人類(lèi),問(wèn)題差異在哪

研究結果顯示,首先:在問(wèn)題類(lèi)型上,與人類(lèi)相比,大模型更傾向于提出需要描述性、更長(cháng)答案的問(wèn)題,大約 44% 的人工智能生成問(wèn)題是這一類(lèi)。

這可能是因為大模型在訓練過(guò)程中接觸到了大量描述性文本。而人類(lèi)傾向于提出更直接、基于事實(shí)的問(wèn)題,例如核查具體的事實(shí)和數字,或者人物、地點(diǎn)、事件等。

而在問(wèn)題長(cháng)度上,,大模型生成的問(wèn)題長(cháng)度更長(cháng),而且不同模型對問(wèn)題長(cháng)度的偏好有所不同,例如 GPT-4o 生成的描述性問(wèn)題更長(cháng)。而人類(lèi)生成的問(wèn)題更短,且不同類(lèi)型的問(wèn)題間長(cháng)度差異較大。

圖 2:大模型提問(wèn)的問(wèn)題長(cháng)度,前兩行是人類(lèi)參與者的問(wèn)題長(cháng)度

而在上下文覆蓋上,人類(lèi)產(chǎn)生的問(wèn)題能更全面地覆蓋上下文信息,包括句子級別和詞語(yǔ)級別。這意味著(zhù)相比人類(lèi),大模型的提問(wèn)難以更全面地覆蓋所有文本,往往會(huì )揪著(zhù)一個(gè)細節去提問(wèn)。

圖 3:大模型和人類(lèi)提出問(wèn)題對應的上下文在句子和單詞層面的覆蓋比

更值得關(guān)注的是,大模型更關(guān)注文本的前部和后部,而忽略中間部分,這一點(diǎn)之前的研究也有提及。

圖 4,大模型提問(wèn)對不同位置的段落的覆蓋情況

對于提出的問(wèn)題是否可以被解答,需要根據上下文信息分別判斷。如果提問(wèn)所依據的文本包含了背景介紹,此時(shí)大模型生成的問(wèn)題通常有清晰的答案。而如果文本中缺少上下文信息,缺乏常識的大模型生成的問(wèn)題的可回答性會(huì )顯著(zhù)下降,甚至有些問(wèn)題無(wú)法回答。

圖 5,對比文本包含上下文以及不包含上下文時(shí),大模型提出的問(wèn)題時(shí)具有可回答度的評分分布

類(lèi)似的,由于生成模型的特性,大模型生成的問(wèn)題通常需要更長(cháng)的答案、包含更多細節。同時(shí)大模型生成的答案可壓縮性較差:盡管可以壓縮,但仍然需要比人類(lèi)更長(cháng)的答案。

圖 6:大模型和人類(lèi)提出問(wèn)題對應的回答的長(cháng)度

研究 AI 提問(wèn)的意義

這項研究中,交給 AI 提問(wèn)的只是一個(gè)段落,而非具有更豐富上下文的文章。未來(lái)的研究,需要考察的是大模型面對更長(cháng)的文本,甚至是多篇長(cháng)文本組成的書(shū)籍時(shí)會(huì )提出怎樣的問(wèn)題,并考察不同閱讀難度、不同學(xué)科背景的文本。

如今 AI 生成的提問(wèn)在商業(yè)產(chǎn)品中變得越來(lái)越普遍。例如,亞馬遜的購物助手會(huì )建議與產(chǎn)品相關(guān)的問(wèn)題,而搜索引擎 Perplexity 和 X 的聊天機器人 Grok 則使用后續問(wèn)題來(lái)幫助用戶(hù)深入了解主題。

由于 AI 問(wèn)題具有于區別于人類(lèi)提問(wèn)者的獨特模式,我們就可以據此測試 RAG 系統,或識別 AI 系統何時(shí)在編造事實(shí)。

對大模型提問(wèn)模式的了解,還可以幫助用戶(hù)編寫(xiě)更好的提示詞,無(wú)論是希望 AI 生成更類(lèi)人的問(wèn)題,還是要求有特定特征的問(wèn)題。

隨著(zhù)人們越來(lái)越依賴(lài)大模型,本文最初描述的基于大模型出考試題,將會(huì )在未來(lái)變得越來(lái)越普遍,進(jìn)而潛移默化地影響人類(lèi)學(xué)生的思考模式,也許會(huì )讓我們的下一代變得啰啰嗦嗦,或者看文章時(shí)只關(guān)注特定細節,尤其是頭尾部的(考核中的重點(diǎn))。

不過(guò)大模型的提問(wèn)模式也是可以微調的,知道了大模型提問(wèn)和人類(lèi)的差異,我們就可以有針對性地進(jìn)行改變。

參考資料:

https://arxiv.org/pdf/2501.03491

讀完這篇文章后,您心情如何?

  • 0 喜歡喜歡
  • 0 頂
  • 0 無(wú)聊無(wú)聊
  • 0 圍觀(guān)圍觀(guān)
  • 0 囧
  • 0 難過(guò)難過(guò)
相關(guān)資訊
推薦閱讀
相關(guān)下載
1女配她也很無(wú)奈-nph-張三缺:逆境中的成長(cháng)下載 2九幺免費版網(wǎng)站nbaoffice68下載 3十九歲暴躁少女CSGO免費觀(guān)看:游戲中的勇氣與掙扎下載 4gogogo免費完整國語(yǔ)版值得觀(guān)看嗎-為何這部影片深受影迷喜愛(ài)下載 5探索“少婦一夜三次一區二區”的隱秘生活青松資訊下載 6倫理電影年輕漂亮的岳完整版講述了什么-該片是否值得觀(guān)看下載 7年輕漂亮的?子6-友:這個(gè)系列一直在進(jìn)化!下載 8九妖動(dòng)漫9.1免費版來(lái)了!但有哪些特色與疑問(wèn)待解答下載
游戲攻略
更多+

Copyright 2025 //m.mrigadava.com/ 版權所有 豫ICP備2021037741號-1 網(wǎng)站地圖