產業新訊

104職場力

2025.05.23 ｜ 6222次觀看

AI ChatGPT

跟AI多聊兩句就偏題？研究發現：語言模型有4點致命傷

104職場力

2025.05.23

6222次觀看

最近，Microsoft和Salesforce發表的一項研究報告顯示，初步對話時AI的表現都沒問題，但在進行多輪對話後，成功率竟下降高達35%。這不禁讓人想納悶，是不是目前的AI技術還不夠成熟？

文／《104職場力》

本文導覽

數據證實，多聊幾句AI就會破功
AI的「急性子」是致命傷
所以AI到底聰不聰明？
什麼情況下AI語言模型迷失的機率更高？如何改善？

在這個科技迅速發展的時代，人工智慧（AI）已經成為我們生活中不可或缺的一部分，無論是寫文章、翻譯，還是客服對話，AI都在努力學習如何更好地跟我們溝通。但是，你有沒有發現，當我們和AI聊天的時候，它剛開始對話時會表現得像個小天才，但隨著對話慢慢深入，卻漸漸變得「迷糊」，甚至胡亂回答，這到底是怎麼回事呢？

數據證實，多聊幾句AI就會破功

在研究中，科學家們模擬了20萬筆對話，檢測了15種主要的語言模型，發現和這些AI首次對話，回覆準確的成功率高達90%，表現好到簡直像個小天才，可一旦進入第2次或第3次對話後，它們就開始像迷失在語言黑洞一樣節節敗退，無法保持對話的一致性和邏輯性，最後成功率降到只剩下約60%。

這引發了研究人員的好奇，明明是「越聊越深入」，給出的訊息和指令應是越來越完整，但為什麼這種聊天模式卻成了這些智慧型夥伴翻不過去的阻礙？

AI的「急性子」是致命傷

其實背後的原因不在於AI的記憶力差，而是它太「急於表現」所導致，從研究人員歸納出的4種回覆行為就能瞧出端倪：

1. 過早提供最終解決方案（Premature Answer Attempt）

在指令尚未完全明確時，AI們就早早生成完整答案或程式碼。這可能是來自語言模型被訓練成必須「盡快給出完整回應」所產生的慣性。

2. 做出錯誤假設（Incorrect Assumptions）

在資訊不足的情況下，AI會根據不完整的提示做出猜測性假設，這些假設如果與使用者後續揭示的真實意圖不符，就會導致整個對話偏離正軌。

3. 過度依賴先前的內容（Over-Reliance on Previous Attempts）

AI語言模型會過度依賴自己先前對話中所生成的內容，包含那些基於錯誤假設而得出的結論，所以就算使用者在下一輪對話中提供新資訊，甚至出言糾正先前的錯誤，AI還是難以有效地整合並推翻自己舊的假設。

4. 回答過於冗長（Overly Verbose Responses）與「答案膨脹」(Answer Bloat)

研究發現，AI生成的回覆越冗長，表現往往越差，因為冗長的答案更容易包含錯誤的假設或不相關的內容。而多輪的對話中，隨著語言模型不斷嘗試修正先前的錯誤，最終答案可能會比單輪設定下的解決方案長20%到300%，這種異常現象就是所謂的「答案膨脹」。

綜合上述4點，也許AI在初回覆時命中率高達9成，但隨著對話的深入，偏離的軌跡會越發明顯，這點就跟人類不一樣，人類在思考或對話的過程中，能意識到自己說錯話或認知錯誤進而及時調整，但AI目前無法做到這點，所以當起始點錯，就會一路錯到底。

可以想像一下，跟一位同事討論問題時，對方在釐清問題核心跟意圖之前就急著給出答案或總結，因為本身理解錯誤，或使用不對的邏輯思考，加上難以根據後續的對話進行調整，就算越講越多，最後給出的答案卻還是偏離發問者的預想，讓人摸不著頭緒，這就是AI模型在多輪對話中經常出現的情況。

所以AI到底聰不聰明？

研究者使用常見的語言模型進行測試，將AI在多輪對話中性能下降歸因於「能力（Aptitude）的輕微損失」和「不可靠性（Unreliability）的顯著增加」。

在模擬的過程中，語言模型的能力（Aptitude）平均下降了16%。
而從最佳和最差情況之間的表現差距可看出，無論其首輪回覆的能力有多強，所有語言模型最後都表現出極高的不可靠性（Unreliability），平均增加了112%。

從研究結果來看，在對話中語言模型並非「變笨」，而是AI在處理複雜會話時，會變得非常不穩定且不可預測，以至於重點失焦、表現大打折扣。

這些問題的根源，主要在於過去對語言模型的訓練方式太過於依賴單句的問答，而人類的對話通常是逐漸深入並不斷澄清的過程，AI在一次對話中無法自如地處理這樣的變化，是因為沒學會如何在對話中靈活應變，才無法像人們預期的那樣穩定地提供解決方案。

什麼情況下AI語言模型迷失的機率更高？如何改善？

研究報告指出，並非所有任務都會讓AI迷失，例如像「翻譯」這樣明確單一的任務，有既定的內容且可分解成獨立的句子級別，表現就比較不容易歪掉，而容易讓AI迷失的任務通常具備以下特性：

1. 生成性任務（Generative Tasks）

比起統整資訊這種有特定資訊來源可提取或分類的任務，需要生成新的內容對AI來說挑戰更大，類似於考試寫申論題一樣。

2. 足夠複雜（Sufficiently Complex）

給出的指令如果太多太複雜，即便有明確的規格，還是會被AI分解成「碎片」，每一片都稍微偏離一點點，最終就會給出奇怪的結論。

3. 非可分解的解決方案（Non-decomposable Solution）

如果沒有在一開始就給齊所有指令，而是在後來的對話中修正或逐步新增，對AI來說，每一個新的資訊碎片都會打亂整個結構，讓它在重整的過程中偏離軌道。

在AI能處理複雜對話前，可以怎麼做？

針對以上挑戰，研究人員提出了一些解決方法，比如：

將問題拆分成小塊，讓模型在每一步對話中一次只處理一小段資訊。這種方法被稱為「分片模擬」，主要是在幫助AI更好理解問題。

另一種策略叫「重述回顧（Recap）」：

在每次的對話結尾回顧之前提到的訊息，幫助AI抓住整體脈絡，就像一位老師在跟學生溝通時，不斷地重申重點，讓學生不會在解答時迷失方向。

這項研究讓我們看清目前語言模型的局限性，AI雖然聰明，但在實際對話中還是無法盡善盡美，報告提出，開發者需要把重點放在讓AI更具「耐心」，學會如何等待、提問和澄清，而不是單純地回答問題，這樣才有機會讓使這些語言模型成為人類良好的聊天夥伴。

（參考資料、圖片來源：LLMs Get Lost In Multi-Turn Conversation）

延伸閱讀：

104職場力

職場專業情報第一選擇：履歷範本、自傳範例、求職面試、職場溝通、經營管理、工作心法、職涯規劃、中年失業、就業機會等。不只幫你找工作、找方向，更要提升你的職場競爭力。新鮮人、上班族、二度就業必看！

跟AI多聊兩句就偏題？研究發現：語言模型有4點致命傷

數據證實，多聊幾句AI就會破功

AI的「急性子」是致命傷

1. 過早提供最終解決方案（Premature Answer Attempt）

2. 做出錯誤假設（Incorrect Assumptions）

3. 過度依賴先前的內容（Over-Reliance on Previous Attempts）

4. 回答過於冗長（Overly Verbose Responses）與「答案膨脹」(Answer Bloat)

所以AI到底聰不聰明？

什麼情況下AI語言模型迷失的機率更高？如何改善？

1. 生成性任務（Generative Tasks）

2. 足夠複雜（Sufficiently Complex）

3. 非可分解的解決方案（Non-decomposable Solution）

在AI能處理複雜對話前，可以怎麼做？

哪三種主管可能被部屬霸凌？

主管也可能「被部屬霸凌」？！當「猛虎難敵猴群」，主管如何自保？

你們辦公室誰坐「高麗菜煮蛋那桌」？明明少了他就癱瘓，薪水為何卻普普通通？

勞工退休金「純舊制轉新制」，7/17正式上路

履歷狂投石沉大海？過來人點破新鮮人5錯誤：別再一份履歷投所有公司