跟AI多聊兩句就偏題?研究發現:語言模型有4點致命傷

104職場力
2025.05.23
2901次觀看

最近,Microsoft和Salesforce發表的一項研究報告顯示,初步對話時AI的表現都沒問題,但在進行多輪對話後,成功率竟下降高達35%。這不禁讓人想納悶,是不是目前的AI技術還不夠成熟?

文/《104職場力

本文導覽

在這個科技迅速發展的時代,人工智慧(AI)已經成為我們生活中不可或缺的一部分,無論是寫文章、翻譯,還是客服對話,AI都在努力學習如何更好地跟我們溝通。但是,你有沒有發現,當我們和AI聊天的時候,它剛開始對話時會表現得像個小天才,但隨著對話慢慢深入,卻漸漸變得「迷糊」,甚至胡亂回答,這到底是怎麼回事呢?

數據證實,多聊幾句AI就會破功

在研究中,科學家們模擬了20萬筆對話,檢測了15種主要的語言模型,發現和這些AI首次對話,回覆準確的成功率高達90%,表現好到簡直像個小天才,可一旦進入第2次或第3次對話後,它們就開始像迷失在語言黑洞一樣節節敗退,無法保持對話的一致性和邏輯性,最後成功率降到只剩下約60%

這引發了研究人員的好奇,明明是「越聊越深入」,給出的訊息和指令應是越來越完整,但為什麼這種聊天模式卻成了這些智慧型夥伴翻不過去的阻礙?


AI的「急性子」是致命傷

其實背後的原因不在於AI的記憶力差,而是它太「急於表現」所導致,從研究人員歸納出的4種回覆行為就能瞧出端倪:

1. 過早提供最終解決方案(Premature Answer Attempt)

在指令尚未完全明確時,AI們就早早生成完整答案或程式碼。這可能是來自語言模型被訓練成必須「盡快給出完整回應」所產生的慣性。

2. 做出錯誤假設(Incorrect Assumptions) 

在資訊不足的情況下,AI會根據不完整的提示做出猜測性假設,這些假設如果與使用者後續揭示的真實意圖不符,就會導致整個對話偏離正軌。

3. 過度依賴先前的內容(Over-Reliance on Previous Attempts)

AI語言模型會過度依賴自己先前對話中所生成的內容,包含那些基於錯誤假設而得出的結論,所以就算使用者在下一輪對話中提供新資訊,甚至出言糾正先前的錯誤,AI還是難以有效地整合並推翻自己舊的假設。

4. 回答過於冗長(Overly Verbose Responses)與「答案膨脹」(Answer Bloat)

研究發現,AI生成的回覆越冗長,表現往往越差,因為冗長的答案更容易包含錯誤的假設或不相關的內容。而多輪的對話中,隨著語言模型不斷嘗試修正先前的錯誤,最終答案可能會比單輪設定下的解決方案長20%到300%,這種異常現象就是所謂的「答案膨脹」。

綜合上述4點,也許AI在初回覆時命中率高達9成,但隨著對話的深入,偏離的軌跡會越發明顯,這點就跟人類不一樣,人類在思考或對話的過程中,能意識到自己說錯話或認知錯誤進而及時調整,但AI目前無法做到這點,所以當起始點錯,就會一路錯到底

可以想像一下,跟一位同事討論問題時,對方在釐清問題核心跟意圖之前就急著給出答案或總結,因為本身理解錯誤,或使用不對的邏輯思考,加上難以根據後續的對話進行調整,就算越講越多,最後給出的答案卻還是偏離發問者的預想,讓人摸不著頭緒,這就是AI模型在多輪對話中經常出現的情況。


所以AI到底聰不聰明?

A語言模型在對話中迷失的研究數據圖。

研究者使用常見的語言模型進行測試,將AI在多輪對話中性能下降歸因於「能力(Aptitude)的輕微損失」和「不可靠性(Unreliability)的顯著增加」。

  • 在模擬的過程中,語言模型的能力(Aptitude)平均下降了16%。
  • 而從最佳和最差情況之間的表現差距可看出,無論其首輪回覆的能力有多強,所有語言模型最後都表現出極高的不可靠性(Unreliability),平均增加了112%。

從研究結果來看,在對話中語言模型並非「變笨」,而是AI在處理複雜會話時,會變得非常不穩定且不可預測,以至於重點失焦、表現大打折扣。

這些問題的根源,主要在於過去對語言模型的訓練方式太過於依賴單句的問答,而人類的對話通常是逐漸深入並不斷澄清的過程,AI在一次對話中無法自如地處理這樣的變化,是因為沒學會如何在對話中靈活應變,才無法像人們預期的那樣穩定地提供解決方案。


什麼情況下AI語言模型迷失的機率更高?如何改善?

研究報告指出,並非所有任務都會讓AI迷失,例如像「翻譯」這樣明確單一的任務,有既定的內容且可分解成獨立的句子級別,表現就比較不容易歪掉,而容易讓AI迷失的任務通常具備以下特性:

1. 生成性任務(Generative Tasks)

比起統整資訊這種有特定資訊來源可提取或分類的任務,需要生成新的內容對AI來說挑戰更大,類似於考試寫申論題一樣。

2. 足夠複雜(Sufficiently Complex)

給出的指令如果太多太複雜,即便有明確的規格,還是會被AI分解成「碎片」,每一片都稍微偏離一點點,最終就會給出奇怪的結論。

3. 非可分解的解決方案(Non-decomposable Solution)

如果沒有在一開始就給齊所有指令,而是在後來的對話中修正或逐步新增,對AI來說,每一個新的資訊碎片都會打亂整個結構,讓它在重整的過程中偏離軌道。

在AI能處理複雜對話前,可以怎麼做?

針對以上挑戰,研究人員提出了一些解決方法,比如:

  • 將問題拆分成小塊,讓模型在每一步對話中一次只處理一小段資訊。這種方法被稱為「分片模擬」,主要是在幫助AI更好理解問題。

另一種策略叫「重述回顧(Recap)」:

  • 在每次的對話結尾回顧之前提到的訊息,幫助AI抓住整體脈絡,就像一位老師在跟學生溝通時,不斷地重申重點,讓學生不會在解答時迷失方向。

這項研究讓我們看清目前語言模型的局限性,AI雖然聰明,但在實際對話中還是無法盡善盡美,報告提出,開發者需要把重點放在讓AI更具「耐心」,學會如何等待、提問和澄清,而不是單純地回答問題,這樣才有機會讓使這些語言模型成為人類良好的聊天夥伴。

(參考資料、圖片來源:LLMs Get Lost In Multi-Turn Conversation


延伸閱讀:

誰說科技人才留不住?工業通訊隱形冠軍Moxa 四零四科技-用「說真話文化」讓工程師發揮真正影響力

誰說科技人才留不住?Moxa四零四科技靠「研發價值」打造黏著力

在科技產業人才競爭激烈的時代,Moxa 四零四科技靠的不是話術與口號,而是一種實實在在的「說真話文化」。這家工業通訊領域的隱形冠軍,鼓勵工程師坦率表達想法、跨部門溝通無需修飾,讓每位技術人才能在團隊中發揮真正的影響力。對研發價值的高度重視,讓Moxa成為能吸引、也真正留得住科技人才的公司。本文帶你認識這家企業如何從文化出發,打造工程師也想待下去的職場。

別再看獵頭公司排行!教你5招挑選獵人頭公司,用Headhunter提升企業在人才市場競爭力!

別再看台灣獵頭公司排行!教你5招挑選獵人頭公司,辨別哪些人才該用Headhunter,提升企業在人才市場的競爭力!

想藉由獵人頭/獵頭服務 (Headhunter) 提升企業競爭力,在台灣半導體與AI科技產業中找到關鍵人才?與其依賴獵人頭/獵頭公司排名,不如學會如何挑選合適的獵人頭/獵頭公司!面對人才短缺、勞動法規與少子化帶來的挑戰,企業需要更具策略性的招募方法。如何挑選優質的獵人頭/獵頭公司?企業該如何應對人才短缺與高離職率問題?AI科技如何提升獵才媒合效率? 本文提供五大技巧,教您如何透過專業獵頭/獵才顧問提升人才招募成效,在競爭激烈的台灣人才市場脫穎而出。

離職卻收到Counter Offer,公司慰留離職人員的手法與邏輯

Counter Offer是什麼?公司慣用的留人方式及背後盤算你想過嗎?

提離職卻收到公司的Counter Offer,為什麼突然「對你好」?本文揭開企業的留人招式與背後的真實盤算,將公司的思考邏輯一併納入評估,幫助大家更好判斷下一步該不該留!

從抱怨聽出弦外之音? 3心法應對職場牢騷王!

這一集,先聽AI語音摘要,再聽歡慶五百集真人live talk,教您面對職場牢騷王。統一超商招募team經理林宸碩與職場教練Simon分享多元共處與軟中帶硬,先劃出正負能量的界限,一旦超限,可採取必要行動。「我能理解你的感受,但這好像是你個人看法,我現在有點忙,需要專心處理事情,也許我們下次再聊。」有時,嫌貨才知買貨人,會抱怨的人可能是最愛公司的人,試著從對方的抱怨裡,找到有利的資訊。

轉職該直線深耕,還是橫向跨域? 

這一集,完全的虛實整合!先聽AI語音摘要,再聽歡慶五百集真人live talk,現場討論當工作五到十年,該轉職嗎?如果轉職,該在同一個領域或公司直線深耕專業,還是跨域增加多元的斜槓能力?林宸碩,統一超商招募team經理,他在統一集團工作超過20年、歷經儲備幹部、客服、網管、經營企劃、新商機、人資至少六類職務,「找開心,基礎打底,工作才能長久!」職場教練Simon提醒,工作上,適合不一定喜歡,如果「環境不能讓我更好,或是,我不能讓環境更好」,代表可以考慮轉職。

【急徵】百大知名企業齊聚台南現場徵才,免費報名→

【104人力銀行】百大知名企業齊聚台南現場徵才

職場專業情報第一選擇:履歷範本、自傳範例、求職面試、職場溝通、經營管理、工作心法、職涯規劃、中年失業、就業機會等。不只幫你找工作、找方向,更要提升你的職場競爭力。新鮮人、上班族、二度就業必看!