(資料圖)
IT之家 3 月 1 日消息,據(jù) THE DECODER 報(bào)道,新一代大語言模型(從 GPT-5 及后續(xù)版本開始)在任務(wù)需要跨多輪對(duì)話完成時(shí),表現(xiàn)依然不佳。研究員菲利普 · 拉班(Philippe Laban)及其團(tuán)隊(duì)在代碼、數(shù)據(jù)庫、操作指令、數(shù)據(jù)轉(zhuǎn)文本、數(shù)學(xué)計(jì)算、文本摘要這六大任務(wù)上對(duì)現(xiàn)有模型進(jìn)行了測(cè)試。當(dāng)信息被拆分到多條消息中(分片式),而非集中在單次提示詞里(拼接式)時(shí),模型性能會(huì)顯著下降。
IT之家注意到,更新的模型表現(xiàn)略好一些,性能降幅從 39% 縮小到 33%,但問題遠(yuǎn)未解決。Python 任務(wù)的提升最為明顯,部分模型僅損失 10%–20% 的性能。拉班認(rèn)為,實(shí)際場(chǎng)景中的性能損失可能更嚴(yán)重,因?yàn)闇y(cè)試只使用了簡(jiǎn)單的用戶模擬;如果用戶在對(duì)話中途改變想法,性能下降幅度可能會(huì)更大。
原始研究發(fā)現(xiàn),調(diào)低溫度值(temperature)這類技術(shù)微調(diào)無法解決這一問題。研究人員建議:一旦出現(xiàn)異常,重新開啟一段新對(duì)話,最好先讓模型把所有請(qǐng)求總結(jié)一遍,再用這份總結(jié)作為新對(duì)話的起點(diǎn)。
關(guān)鍵詞: 菲利普 python 跨多輪對(duì)話任務(wù)