最近,Microsoft和Salesforce發表的一項研究報告顯示,初步對話時AI的表現都沒問題,但在進行多輪對話後,成功率竟下降高達35%。這不禁讓人想納悶,是不是目前的AI技術還不夠成熟?
文/《104職場力》
本文導覽
在這個科技迅速發展的時代,人工智慧(AI)已經成為我們生活中不可或缺的一部分,無論是寫文章、翻譯,還是客服對話,AI都在努力學習如何更好地跟我們溝通。但是,你有沒有發現,當我們和AI聊天的時候,它剛開始對話時會表現得像個小天才,但隨著對話慢慢深入,卻漸漸變得「迷糊」,甚至胡亂回答,這到底是怎麼回事呢?
在研究中,科學家們模擬了20萬筆對話,檢測了15種主要的語言模型,發現和這些AI首次對話,回覆準確的成功率高達90%,表現好到簡直像個小天才,可一旦進入第2次或第3次對話後,它們就開始像迷失在語言黑洞一樣節節敗退,無法保持對話的一致性和邏輯性,最後成功率降到只剩下約60%。
這引發了研究人員的好奇,明明是「越聊越深入」,給出的訊息和指令應是越來越完整,但為什麼這種聊天模式卻成了這些智慧型夥伴翻不過去的阻礙?
其實背後的原因不在於AI的記憶力差,而是它太「急於表現」所導致,從研究人員歸納出的4種回覆行為就能瞧出端倪:
在指令尚未完全明確時,AI們就早早生成完整答案或程式碼。這可能是來自語言模型被訓練成必須「盡快給出完整回應」所產生的慣性。
在資訊不足的情況下,AI會根據不完整的提示做出猜測性假設,這些假設如果與使用者後續揭示的真實意圖不符,就會導致整個對話偏離正軌。
AI語言模型會過度依賴自己先前對話中所生成的內容,包含那些基於錯誤假設而得出的結論,所以就算使用者在下一輪對話中提供新資訊,甚至出言糾正先前的錯誤,AI還是難以有效地整合並推翻自己舊的假設。
研究發現,AI生成的回覆越冗長,表現往往越差,因為冗長的答案更容易包含錯誤的假設或不相關的內容。而多輪的對話中,隨著語言模型不斷嘗試修正先前的錯誤,最終答案可能會比單輪設定下的解決方案長20%到300%,這種異常現象就是所謂的「答案膨脹」。
綜合上述4點,也許AI在初回覆時命中率高達9成,但隨著對話的深入,偏離的軌跡會越發明顯,這點就跟人類不一樣,人類在思考或對話的過程中,能意識到自己說錯話或認知錯誤進而及時調整,但AI目前無法做到這點,所以當起始點錯,就會一路錯到底。
可以想像一下,跟一位同事討論問題時,對方在釐清問題核心跟意圖之前就急著給出答案或總結,因為本身理解錯誤,或使用不對的邏輯思考,加上難以根據後續的對話進行調整,就算越講越多,最後給出的答案卻還是偏離發問者的預想,讓人摸不著頭緒,這就是AI模型在多輪對話中經常出現的情況。
研究者使用常見的語言模型進行測試,將AI在多輪對話中性能下降歸因於「能力(Aptitude)的輕微損失」和「不可靠性(Unreliability)的顯著增加」。
從研究結果來看,在對話中語言模型並非「變笨」,而是AI在處理複雜會話時,會變得非常不穩定且不可預測,以至於重點失焦、表現大打折扣。
這些問題的根源,主要在於過去對語言模型的訓練方式太過於依賴單句的問答,而人類的對話通常是逐漸深入並不斷澄清的過程,AI在一次對話中無法自如地處理這樣的變化,是因為沒學會如何在對話中靈活應變,才無法像人們預期的那樣穩定地提供解決方案。
研究報告指出,並非所有任務都會讓AI迷失,例如像「翻譯」這樣明確單一的任務,有既定的內容且可分解成獨立的句子級別,表現就比較不容易歪掉,而容易讓AI迷失的任務通常具備以下特性:
比起統整資訊這種有特定資訊來源可提取或分類的任務,需要生成新的內容對AI來說挑戰更大,類似於考試寫申論題一樣。
給出的指令如果太多太複雜,即便有明確的規格,還是會被AI分解成「碎片」,每一片都稍微偏離一點點,最終就會給出奇怪的結論。
如果沒有在一開始就給齊所有指令,而是在後來的對話中修正或逐步新增,對AI來說,每一個新的資訊碎片都會打亂整個結構,讓它在重整的過程中偏離軌道。
針對以上挑戰,研究人員提出了一些解決方法,比如:
另一種策略叫「重述回顧(Recap)」:
這項研究讓我們看清目前語言模型的局限性,AI雖然聰明,但在實際對話中還是無法盡善盡美,報告提出,開發者需要把重點放在讓AI更具「耐心」,學會如何等待、提問和澄清,而不是單純地回答問題,這樣才有機會讓使這些語言模型成為人類良好的聊天夥伴。
(參考資料、圖片來源:LLMs Get Lost In Multi-Turn Conversation)
延伸閱讀:
在服務業人才流動高的年代,王品集團旗下品牌「石二鍋」以實際行動打造新世代幸福職場!相較於薪資、升遷等傳統吸引力,現代員工更重視工作的體感與生活品質。石二鍋從第一線餐飲人最切身的需求出發,推動「員工休息空間」與「宿舍改造」計畫,攜手IKEA共創真正舒適、實用且溫暖的環境。《104職場力》帶您一探這個由聆聽展開、到落實空間,「不只是工作、更是安心落腳所在」的文化變革。
我最近聽到一段由《中年的選擇》作者/現代長者學院(MEA)創辦人奇普康利訪談《紫牛》作者/行銷大師賽斯高汀的podcast,聊到關於「低潮期」、「第二曲線」、「退休觀念」、「年紀增長的優勢」,聽完特別有感,因為我發現自己過去幾年的轉型歷程,正好也在走這幾個階段(和踩坑)。
全球供應鏈重組與AI應用擴張,推升半導體徵才需求快速攀升,工程、製造、研發等職缺持續擴大缺口。《2025半導體人才報告書》揭示四大人才警訊,解析中小企業如何在人才市場競爭中突圍:包括技術職供需失衡、跨域整合人才興起、雇主品牌吸引力不足,以及穩定任職與職能適配的重要性。本文提供半導體招募趨勢與策略建議,協助企業提升招募成功率、強化職缺吸引力與留才力。
外籍人士如受聘來臺工作,多數情況下須由雇主聘僱並與簽訂聘僱契約,同時準備相關文件以申請「聘僱外國專業人員工作許可」,另外部分身分與職業則可由外國人⾃⾏向勞動部申請⼯作許可。《104職場力》為您簡單整理相關職業身分與申請方式,,也歡迎您參考【外籍人士就業】專區,獲得更完整的資訊!
AI大幅降低了寫程式的門檻,工程師該如何在AI時代中保有競爭力?作者、資深工程師指出,現在市場受到AI衝擊最大的是「新手工程師」,因為較難判斷AI答案的品質與正確性。他也建議,工程師與其害怕被取代,不如開始思考:什麼才是真正不可替代的能力?
【急徵】百大知名企業齊聚台南現場徵才,免費報名→