国产一区二区视频在线观看,天天操夜夜夜,亚洲国产成人在线观看,亚洲精品国产第一综合99久久,久久精品国产99国产精品免费看,国产精品一区二区手机看片,亚洲欧美视频二区

<optgroup id="trqni"><var id="trqni"><dfn id="trqni"></dfn></var></optgroup>

<acronym id="trqni"><tbody id="trqni"><video id="trqni"></video></tbody></acronym>

<optgroup id="trqni"><wbr id="trqni"></wbr></optgroup>

<acronym id="trqni"><option id="trqni"><li id="trqni"></li></option></acronym><font id="trqni"><optgroup id="trqni"><kbd id="trqni"></kbd></optgroup></font>

UC-伯克利等最新研究：大語(yǔ)言模型就是比人類(lèi)啰嗦-“提問(wèn)的藝術(shù)”仍難參透

來(lái)源：八星手游網(wǎng) 日期：2025-01-31 14:16:46

八星手游網(wǎng) → 首頁(yè) → 免費攻略 → UC-伯克利等最新研究：大語(yǔ)言模型就是比人類(lèi)啰嗦-“提問(wèn)的藝術(shù)”仍難參透

基于一段文本提問(wèn)時(shí)，人類(lèi)和大模型會(huì )基于截然不同的思維模式給出問(wèn)題。大模型喜歡那些需要詳細解釋才能回答的問(wèn)題，而人類(lèi)傾向于提出更直接、基于事實(shí)的問(wèn)題。

如果要你負責企業(yè)培訓，培訓結束需要出一份考試題目，那如今你可以選擇將培訓材料交給大模型，由大模型來(lái)負責出題并給出參考答案。

不過(guò)由大模型給出的考題，和人類(lèi)出的題目究竟有沒(méi)有差別，以及有哪些差別？

最近，加州大學(xué)伯克利分校、沙特阿拉伯阿卜杜拉國王科技城（KACST）和華盛頓大學(xué)的研究人員發(fā)表了一項研究，首次系統評價(jià)了大模型提問(wèn)的能力，并指出大模型和人類(lèi)的提問(wèn)模式存在顯著(zhù)差異。

論文地址：https://arxiv.org/pdf/2501.03491

評價(jià)提問(wèn)的四個(gè)維度

這項研究基于維基百科的文本，將文本拆分為 86 萬(wàn)個(gè)段落，之后通過(guò)亞馬遜 Mechanical Turk 眾包平臺，由人類(lèi)參與者為每個(gè)段落撰寫(xiě)對應的題目及答案，人類(lèi)給出的文本將作為評估大模型的基準。

圖 1：大模型出題并評價(jià)的模式

之后，研究人員將這些段落交給主流的大模型，包括閉源的 GPT-4o 和開(kāi)源的 LLaMA-3.1-70b-Instruct，由大模型根據段落內容及上下文提問(wèn)，之后對問(wèn)題的評價(jià)也由大模型進(jìn)行。

對問(wèn)題的評價(jià)共包含 6 個(gè)指標，分為 2 組。前三個(gè)標準評估問(wèn)題本身，而第二組標準負責評估反映問(wèn)題質(zhì)量的潛在答案。首先介紹與答案無(wú)關(guān)的標準。

1. 問(wèn)題類(lèi)型

對于人類(lèi)來(lái)說(shuō)，選擇問(wèn)哪個(gè)問(wèn)題具有主觀(guān)性。這項研究定義了十種問(wèn)題類(lèi)型，例如驗證 / 確認問(wèn)題，具體事實(shí)與數據問(wèn)題及身份和歸屬問(wèn)題等。

2. 問(wèn)題長(cháng)度

主要測量的是組成問(wèn)題的單詞數量。除了直接比較人類(lèi)和大模型所生成的問(wèn)題長(cháng)度外，該研究還考察了問(wèn)題長(cháng)度與問(wèn)題類(lèi)型之間的關(guān)系。

3. 上下文覆蓋率

上下文通常包括多個(gè)句子，問(wèn)題可能只針對一個(gè)句子中的一個(gè)事實(shí)，或者需要跨越多個(gè)句子進(jìn)行推理。這項標準旨在反映問(wèn)題覆蓋文本內容的長(cháng)度，研究還分析了在生成過(guò)程中，大模型是否會(huì )有傾向性地關(guān)注上下文中的哪些特定部分。

4. 可回答程度

一個(gè)問(wèn)題的關(guān)鍵質(zhì)量標準是它是否可以在特定知識的基礎上被精確地回答。具體來(lái)說(shuō)，生成的提問(wèn)應在提供上下文的情況下可回答，而非是模棱兩可的。

5. 罕見(jiàn)性

大模型是在互聯(lián)網(wǎng)上廣泛可用的常識上進(jìn)行訓練。因此，即使沒(méi)有明確提供上下文，大模型仍然可以進(jìn)行提問(wèn)，因此需要評估問(wèn)題相對于其預訓練數據的罕見(jiàn)程度，從而判斷大模型究竟是有的放矢地提問(wèn)，還是問(wèn)給出一些泛泛而談的問(wèn)題。

6. 答案所需的長(cháng)度

除了問(wèn)題長(cháng)度外，所需答案的長(cháng)度是衡量提問(wèn)模式的一個(gè)更有效的指標。然而，由于生成模型的回答往往冗長(cháng)且包含很多無(wú)用細節，所以首先要明確提示模型提供最短的文本作為回答，并指導模型在一定的字數限制內生成答案。此外，研究者還會(huì )對這些答案進(jìn)行額外評估，以確定是否可以用更少的詞達到相同的質(zhì)量評級。

大模型 vs.人類(lèi)，問(wèn)題差異在哪

研究結果顯示，首先：在問(wèn)題類(lèi)型上，與人類(lèi)相比，大模型更傾向于提出需要描述性、更長(cháng)答案的問(wèn)題，大約 44% 的人工智能生成問(wèn)題是這一類(lèi)。

這可能是因為大模型在訓練過(guò)程中接觸到了大量描述性文本。而人類(lèi)傾向于提出更直接、基于事實(shí)的問(wèn)題，例如核查具體的事實(shí)和數字，或者人物、地點(diǎn)、事件等。

而在問(wèn)題長(cháng)度上，，大模型生成的問(wèn)題長(cháng)度更長(cháng)，而且不同模型對問(wèn)題長(cháng)度的偏好有所不同，例如 GPT-4o 生成的描述性問(wèn)題更長(cháng)。而人類(lèi)生成的問(wèn)題更短，且不同類(lèi)型的問(wèn)題間長(cháng)度差異較大。

圖 2：大模型提問(wèn)的問(wèn)題長(cháng)度，前兩行是人類(lèi)參與者的問(wèn)題長(cháng)度

而在上下文覆蓋上，人類(lèi)產(chǎn)生的問(wèn)題能更全面地覆蓋上下文信息，包括句子級別和詞語(yǔ)級別。這意味著(zhù)相比人類(lèi)，大模型的提問(wèn)難以更全面地覆蓋所有文本，往往會(huì )揪著(zhù)一個(gè)細節去提問(wèn)。

圖 3：大模型和人類(lèi)提出問(wèn)題對應的上下文在句子和單詞層面的覆蓋比

更值得關(guān)注的是，大模型更關(guān)注文本的前部和后部，而忽略中間部分，這一點(diǎn)之前的研究也有提及。

圖 4，大模型提問(wèn)對不同位置的段落的覆蓋情況

對于提出的問(wèn)題是否可以被解答，需要根據上下文信息分別判斷。如果提問(wèn)所依據的文本包含了背景介紹，此時(shí)大模型生成的問(wèn)題通常有清晰的答案。而如果文本中缺少上下文信息，缺乏常識的大模型生成的問(wèn)題的可回答性會(huì )顯著(zhù)下降，甚至有些問(wèn)題無(wú)法回答。

圖 5，對比文本包含上下文以及不包含上下文時(shí)，大模型提出的問(wèn)題時(shí)具有可回答度的評分分布

類(lèi)似的，由于生成模型的特性，大模型生成的問(wèn)題通常需要更長(cháng)的答案、包含更多細節。同時(shí)大模型生成的答案可壓縮性較差：盡管可以壓縮，但仍然需要比人類(lèi)更長(cháng)的答案。

圖 6：大模型和人類(lèi)提出問(wèn)題對應的回答的長(cháng)度

研究 AI 提問(wèn)的意義

這項研究中，交給 AI 提問(wèn)的只是一個(gè)段落，而非具有更豐富上下文的文章。未來(lái)的研究，需要考察的是大模型面對更長(cháng)的文本，甚至是多篇長(cháng)文本組成的書(shū)籍時(shí)會(huì )提出怎樣的問(wèn)題，并考察不同閱讀難度、不同學(xué)科背景的文本。

如今 AI 生成的提問(wèn)在商業(yè)產(chǎn)品中變得越來(lái)越普遍。例如，亞馬遜的購物助手會(huì )建議與產(chǎn)品相關(guān)的問(wèn)題，而搜索引擎 Perplexity 和 X 的聊天機器人 Grok 則使用后續問(wèn)題來(lái)幫助用戶(hù)深入了解主題。

由于 AI 問(wèn)題具有于區別于人類(lèi)提問(wèn)者的獨特模式，我們就可以據此測試 RAG 系統，或識別 AI 系統何時(shí)在編造事實(shí)。

對大模型提問(wèn)模式的了解，還可以幫助用戶(hù)編寫(xiě)更好的提示詞，無(wú)論是希望 AI 生成更類(lèi)人的問(wèn)題，還是要求有特定特征的問(wèn)題。

隨著(zhù)人們越來(lái)越依賴(lài)大模型，本文最初描述的基于大模型出考試題，將會(huì )在未來(lái)變得越來(lái)越普遍，進(jìn)而潛移默化地影響人類(lèi)學(xué)生的思考模式，也許會(huì )讓我們的下一代變得啰啰嗦嗦，或者看文章時(shí)只關(guān)注特定細節，尤其是頭尾部的（考核中的重點(diǎn)）。

不過(guò)大模型的提問(wèn)模式也是可以微調的，知道了大模型提問(wèn)和人類(lèi)的差異，我們就可以有針對性地進(jìn)行改變。

參考資料：

https://arxiv.org/pdf/2501.03491

讀完這篇文章后，您心情如何？

0 喜歡
0 頂
0 無(wú)聊
0 圍觀(guān)
0 囧
0 難過(guò)

相關(guān)資訊

推薦閱讀

相關(guān)下載

: 1女配她也很無(wú)奈-nph-張三缺：逆境中的成長(cháng)下載 2九幺免費版網(wǎng)站nbaoffice68下載 3十九歲暴躁少女CSGO免費觀(guān)看：游戲中的勇氣與掙扎下載 4gogogo免費完整國語(yǔ)版值得觀(guān)看嗎-為何這部影片深受影迷喜愛(ài)下載 5探索“少婦一夜三次一區二區”的隱秘生活青松資訊下載 6倫理電影年輕漂亮的岳完整版講述了什么-該片是否值得觀(guān)看下載 7年輕漂亮的?子6-友：這個(gè)系列一直在進(jìn)化！下載 8九妖動(dòng)漫9.1免費版來(lái)了！但有哪些特色與疑問(wèn)待解答下載

瀏覽排行

游戲攻略: 更多+

1歐洲尺碼日本尺碼專(zhuān)線(xiàn)不卡頓：一線(xiàn)連接無(wú)縫選購-不卡頓傳輸！ 2如何理解并掌握一級一片一AABB結構-幫助提高漢字書(shū)寫(xiě)水平 3成都私人情侶免費看電視劇的軟件：輕松打造私密約會(huì )時(shí)光-甜蜜約會(huì )就靠它！ 477777免費觀(guān)看電視劇推薦：永久免費追劇神器-極速更新精彩劇集！ 5三年片免費觀(guān)看大全第四集古代內容有什么亮點(diǎn)情節發(fā)展如何吸引觀(guān)眾 691站的功能、特點(diǎn)和發(fā)展前景分析-如何在競爭中脫穎而出 791免費視頻為何如此受歡迎-有哪些特點(diǎn)讓用戶(hù)愛(ài)不釋手 8羞羞視頻：為何它能迅速吸引大批年輕觀(guān)眾，背后有何秘訣?

Copyright 2025 //m.mrigadava.com/ 版權所有豫ICP備2021037741號-1 網(wǎng)站地圖

返回頂部

<optgroup id="6h74a"><center id="6h74a"><cite id="6h74a"></cite></center></optgroup>

<acronym id="6h74a"><pre id="6h74a"><dd id="6h74a"></dd></pre></acronym>

<optgroup id="6h74a"><wbr id="6h74a"></wbr></optgroup>

<sup id="6h74a"><optgroup id="6h74a"></optgroup></sup>