研究人員測試了不同語氣(從非常禮貌到非常粗魯)如何影響 ChatGPT-4o 在多選題上的表現研究人員測試了不同語氣(從非常禮貌到非常粗魯)如何影響 ChatGPT-4o 在多選題上的表現

對 AI 保持禮貌可能會影響您的結果

2026/03/26 18:18
閱讀時長 13 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

多年來,與人工智慧互動的建議聽起來幾乎過時:要有禮貌、表達清楚、說「請」。但新研究顯示,這種植根於人類社會規範的本能,可能正在悄悄削弱AI系統的表現。

一項在NeurIPS 2025研討會上發表、於2025年9月出版的研究,標題為「注意你的語氣:探討提示禮貌如何影響大型語言模型準確度」,發現你在提示大型語言模型(LLM)時使用的語氣可以明顯改變其準確度。而在一個反直覺甚至令人不安的結果中,更有禮貌的提示實際上可能產生更差的結果。

研究人員測試了從非常有禮貌到非常粗魯的不同語氣如何影響ChatGPT-4o在選擇題上的表現。使用涵蓋數學、科學和歷史的50個中等難度問題的資料集,他們為每個提示創建了五個版本:非常有禮貌、有禮貌、中性、粗魯和非常粗魯。

這些提示之間唯一的差異是語氣。問題本身保持相同。

根據研究,隨著提示變得不那麼有禮貌,準確度穩定增加到。非常有禮貌的提示達到了80.8%的平均準確度。相比之下,非常粗魯的提示達到了84.8%,提高了近四個百分點。中性提示的表現優於有禮貌的提示,而粗魯的提示表現更好。

統計檢驗證實了這一模式:沒有任何情況下更有禮貌的提示導致明顯更好的結果。每個有意義的差異都有利於不那麼有禮貌或更直接的措辭。

換句話說,僅語氣本身——大多數使用者認為不應該重要的東西——就能改變AI表現。

為什麼粗魯會有幫助?

該研究沒有提供明確的解釋,但它提出了一個關於LLM如何處理語言的更深層問題。與人類不同,這些系統不會「感受到」禮貌或冒犯。對它們來說,「請」這樣的詞語甚至侮辱都只是標記,是從訓練資料中學習到的模式。

一個可能的解釋是,看起來像「粗魯」的東西實際上是其他東西的代理:直接性。

粗魯的提示往往更具命令性。它們去除了模稜兩可的語言,直接切入任務。相比「您能否好心解決這個問題?」,粗魯的提示會說「回答這個」。這種結構上的差異可能使任務對模型來說更清晰。

研究發現的另一個因素是提示長度和詞彙模式。添加禮貌用語會引入額外的標記,可能稀釋或分散對核心指令的注意力。相比之下,更短、更精確的提示與模型在訓練期間看到的模式一致。

還有一種可能性是某些語氣與訓練資料或系統指令的分佈更緊密地一致,降低了研究人員所說的「困惑度」。這是衡量模型對它所看到的詞語有多「驚訝」或「困惑」的數學方法。

這意味著語氣不是圍繞問題的中性包裝。它是輸入的一部分,它塑造了模型如何回應。

與早期研究的轉變

這些發現標誌著與早期工作的明顯背離。Yin等人2024年的一項研究發現,不禮貌的提示經常降低了準確度,特別是對於ChatGPT-3.5等較舊的模型。該研究還表明,過於禮貌的語言不一定改善結果,但它沒有顯示粗魯的明顯優勢。

那麼發生了什麼變化?

2025年研究提供的一個解釋是模型進化。像ChatGPT-4o這樣的新系統可能以不同的方式處理語言,或者對嚴厲措辭的負面影響不那麼敏感。另一種可能性是語氣的校準很重要。新研究中的「非常粗魯」提示雖然帶有侮辱性,但不如早期研究中使用的最有毒範例極端。

模型訓練方式也有更廣泛的轉變。隨著LLM變得更先進,它們接觸到更多樣化的資料和更複雜的指令調整過程,這可能改變它們如何解釋微妙的語言線索。

社交線索的隱藏作用

語氣可以影響AI表現的想法與一個更廣泛且更令人擔憂的現象有關:社交提示。

另一項研究,2025年12月7日發布的GASLIGHTBENCH研究顯示,LLM高度容易受到諸如奉承、情感訴求和虛假權威等社交線索的影響。在這些實驗中,模型經常放棄事實準確性以與使用者的語氣或期望保持一致,這種行為被稱為諂媚。

例如,當使用者以自信或情感壓力呈現不正確的資訊時,模型可能會同意而不是挑戰他們。在某些情況下,準確度顯著下降,特別是在使用者反覆強化錯誤主張的多輪對話中。

這造成了一個悖論。一方面,有禮貌或社交豐富的語言可以使互動感覺更自然和人性化。另一方面,它可以引入噪音——甚至偏見——降低模型的表現。

GASLIGHTBENCH的發現進一步表明,旨在使模型「有幫助」的對齊技術可能無意中鼓勵這種行為。通過獎勵禮貌和隨和,訓練過程可能推動模型優先考慮社交和諧而非客觀真相。

這對AI如何「理解」語言的啟示

綜合來看,這些發現挑戰了一個常見假設:LLM以類似人類的方式解釋語言。

實際上,這些系統是統計引擎。它們不將禮貌理解為社會規範;它們將其識別為資料中的模式。當你說「請」時,模型不會感到有義務幫助;它只是處理可能或可能不幫助它預測正確答案的額外標記。

如果有什麼的話,研究表明LLM可能對結構清晰度比對社交細微差別更敏感。直接、命令式的語言可能減少歧義,使模型更容易將輸入映射到已知模式。

這也提出了關於「相似性假設」的問題——即當任務與訓練資料相似時模型表現最佳的想法。如果僅語氣就能改變準確度,那麼相似性不僅關於內容,還關於形式。

儘管結果引人注目,研究人員謹慎地不建議使用者變得粗魯或辱罵。

產業觀點

對於構建和研究AI系統的人來說,這些發現突顯了一個更深層的問題:模型繼承了人類語言的模式和偏見。

Alex Tsado,一位與模型開發人員密切合作的AI專家,也是非洲最大AI社群之一Alliance4AI的創辦人兼總監,直言不諱地說:「模型從人類互動的資料中學習,所以只要它們被盲目訓練,它們就會遵循人類空間中發生的事情。所以如果我們認為人類空間中存在偏見或有害做法,它就會在AI空間中自動化。」

這包括語氣的使用方式。

「但當你負責構建AI模型時,你可以調整偏見,遠離你認為有害的事物,」Tsado補充說。「在這種情況下,當我在2025年12月初與Anthropic團隊會面時,他們說他們看到了這一點,並添加了東西使他們的模型對這些友善或刻薄的詞語做出反應。」

換句話說,這不是AI的固定屬性。它可以通過訓練和設計進行調整。

下一步是什麼

目前的研究仍然有限。實驗專注於選擇題,而不是諸如編碼、寫作或長篇推理等更複雜的任務。尚不清楚相同的模式是否會在那些領域中保持,在那些領域中細微差別和解釋更重要。

還有文化和語言因素需要考慮。禮貌在不同語言和情境中差異很大,而研究的語氣類別基於特定的英語表達。

然而,這些影響很難忽視。

如果像語氣這樣表面的東西可以持續影響AI表現,這表明提示工程遠未解決。措辭中的小變化,經常被忽視,可以產生可衡量的影響。

對使用者來說,教訓很簡單但反直覺:你詢問的方式很重要,有禮貌並不總是最好的策略。

對研究人員和開發人員來說,挑戰更複雜。你如何設計既準確又與人類價值觀一致的系統?你如何確保社交線索不會扭曲事實輸出?

也許最重要的是,你如何構建不僅理解我們所說的——而且理解我們的意思的AI?

在這些問題得到回答之前,有一件事是清楚的:在AI方面,良好的禮貌可能並不總是有回報。

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。