推 flash789 : AI泡沫 怕.jpg223.139.104.114 05/23 09:20
推 zonppp : 魔鬼終結者要來了 36.226.212.61 05/23 09:22
推 longlyeagle : 雀食 57.140.96.51 05/23 09:39
推 GoodLuck01 : 好像有看了什麼, 但又像沒看了什麼 61.221.155.73 05/23 09:43
→ xvited945 : 讓AI聽懂人話要很長一段路?當初說 36.224.197.167 05/23 09:45
→ xvited945 : 要讓Siri聰明一點也說要很久,結果 36.224.197.167 05/23 09:45
→ xvited945 : 各語言模型如雨後春筍問世,好了啦 36.224.197.167 05/23 09:45
→ xvited945 : 記者 36.224.197.167 05/23 09:45
推 Ryoma : 真人都會聽不懂人話或沒邏輯應答了 211.23.161.10 05/23 09:56
推 hensel : 蹲的越久 腳就越麻114.136.168.241 05/23 10:22
推 lovebridget : 這篇AI寫的嗎220.130.196.217 05/23 10:35
推 endisonlin : 我也覺得這記者很讚 42.72.103.1 05/23 10:46
推 lovebridget : 其實人更不會聽吧 還會反嗆陷害220.130.196.217 05/23 10:49
→ lovebridget : AI你跟他說不對他馬上改口 我還覺得220.130.196.217 05/23 10:50
→ lovebridget : 他太會順著你太舔不準確220.130.196.217 05/23 10:50
推 lastsodeep : Siri 有聰明過嗎? 101.10.222.202 05/23 11:09
噓 alvinlin : 無聊。這話題已經大概是半年前的事180.177.212.126 05/23 11:09
→ alvinlin : 情了。最近有改善很多了啦180.177.212.126 05/23 11:09
推 mmonkeyboyy : AI 就跟某些(國)人一樣 舔狗啊~ 73.70.62.211 05/23 11:21
噓 alvinlin : 記者不要老是把「舊」聞當「新」聞180.177.212.126 05/23 11:30
→ alvinlin : 寫好嗎180.177.212.126 05/23 11:30
→ la8day : 人會說:乾我屁事 這鍋為什麼要我 61.230.28.15 05/23 11:58
→ la8day : 揹 你去找其他人 61.230.28.15 05/23 11:58
推 motan : 人類需要的是方便的工具,而不是真 101.12.176.125 05/23 12:19
→ motan : 的新物種 101.12.176.125 05/23 12:19
推 zaiter : 蠻低能的文章 文組寫的不意外 49.215.156.48 05/23 13:22
→ zaiter : 感覺這記者還有將這個 比AI還智障 49.215.156.48 05/23 13:23
→ Arashi0731 : 真人也是吧,講一講就不然你要投國 111.83.107.120 05/23 13:37
→ Arashi0731 : 民黨? 111.83.107.120 05/23 13:37
→ piyobearman : 人和人談到後面也是啦 101.12.146.2 05/23 13:44
→ kaltu : Bert 時代就在講的東西撐過GPT用了 100.8.245.106 05/23 13:48
→ kaltu : 半個decade終於出現在文組的文章裡 100.8.245.106 05/23 13:48
→ kaltu : ,所以說工程師面對跟技術脫節或根 100.8.245.106 05/23 13:48
→ kaltu : 本非技術的主管永遠要記得他們的知 100.8.245.106 05/23 13:48
→ kaltu : 識永遠落後時代,但他們又有實權 100.8.245.106 05/23 13:48
推 Hack : 這研究不是這個月才release的嗎 連 42.79.103.235 05/23 13:59
→ Hack : 文章都不會點進去看 怎麼還好意思 42.79.103.235 05/23 14:00
→ Hack : 嗆Zzz 42.79.103.235 05/23 14:00
推 Hack : 留言的那篇 連文章標題都不對… 42.79.103.235 05/23 14:03
→ tokeep : 不是AI沒用,是你的AI沒用118.231.192.235 05/23 14:15
推 kakar0to : 靠杯 講半天就是說AI沒辦法好好 1.34.223.241 05/23 14:41
→ kakar0to : 思考在回答 之前黃仁勳就有說這能 1.34.223.241 05/23 14:41
→ kakar0to : 解決了 1.34.223.241 05/23 14:41
→ Killercat : 其他不敢說 不過按照向量資料庫原理 57.140.96.34 05/23 14:43
→ Killercat : 來講 要讓他講出"我不知道"是很難的 57.140.96.34 05/23 14:44
→ Killercat : 因為無論如何該embedding附近都可以 57.140.96.34 05/23 14:44
→ Killercat : 找到解 57.140.96.34 05/23 14:44
→ acgotaku : 其實訓練資料越多 回答的越正確 1.169.171.23 05/23 15:22
→ acgotaku : 只是這個正確答案 無法迎合人類 1.169.171.23 05/23 15:22
→ acgotaku : 的正確答案 1.169.171.23 05/23 15:23
→ acgotaku : 就像我們都很難跟諾貝爾獎得主溝通 1.169.171.23 05/23 15:25
→ acgotaku : 但是普通人與普通人溝同就能對頻 1.169.171.23 05/23 15:25
推 fyb : 到時客服人員都不在是真人 Ai主動 43.210.0.7 05/23 15:45
→ fyb : 思考解決所有問題 43.210.0.7 05/23 15:45
推 abccbaandy : 真實阿,一兩句解決不了的再問也是 1.34.13.108 05/23 16:03
→ abccbaandy : 浪費時間 1.34.13.108 05/23 16:03
→ D600dust : 不就跟青鳥一樣 不會認錯 1.160.220.193 05/23 16:53
→ yesyesyesyes: ai 回答的是你要的,不是正確解答 101.9.100.212 05/23 17:00
推 j401f2 : 真人有好到哪裡去嗎…一堆有偏見的 42.70.175.12 05/23 17:45
→ j401f2 : 根本無法理性溝通 42.70.175.12 05/23 17:45
噓 alvinlin : 感覺有人英文看不懂。看中文吧。1年180.177.212.126 05/23 18:16
→ alvinlin : 了180.177.212.126 05/23 18:16
→ alvinlin : 14880180.177.212.126 05/23 18:16
推 Hack : 要不要去看看眼睛 標題一樣嗎?這篇 42.79.103.235 05/23 18:43
→ Hack : 文章的原文是什麼時候發表的要不要 42.79.103.235 05/23 18:43
→ Hack : 看看 42.79.103.235 05/23 18:43
推 Hack : 標題抓到「Lost」就開噴Zzz 兩篇探 42.79.103.235 05/23 18:52
→ Hack : 討的是同一件事情嗎?這年頭讀書不 42.79.103.235 05/23 18:52
→ Hack : 犯法 多念一點吧 42.79.103.235 05/23 18:52
→ toaste791214: 其實人腦的思維、邏輯判斷還是贏過 42.79.100.127 05/23 20:02
→ toaste791214: 電腦的,不然上帝為什麼要創造人? 42.79.100.127 05/23 20:02
→ toaste791214: 而不是創造電腦?另外光看現在的研 42.79.100.127 05/23 20:02
→ toaste791214: 發人員、決策者還是人類就知道了。A 42.79.100.127 05/23 20:02
→ toaste791214: I說穿就是很方便的自動化軟體而已。 42.79.100.127 05/23 20:02
→ wasitora : 上帝XDDDDD 36.231.14.177 05/23 20:08
推 wrt : 操 這AI是傻鳥嗎?死不認錯124.218.220.239 05/23 21:40
→ alvinlin : 根據兩篇論文——2024年發表的《Los180.177.212.126 05/24 01:42
→ alvinlin : t in the Middle: How Language Mod180.177.212.126 05/24 01:42
→ alvinlin : els Use Long Contexts》(簡稱Lost180.177.212.126 05/24 01:42
→ alvinlin : in the Middle)和2025年發表的《L180.177.212.126 05/24 01:42
→ alvinlin : LMs Get Lost in Multi-Turn Conver180.177.212.126 05/24 01:42
→ alvinlin : sation》(簡稱Lost in Conversatio180.177.212.126 05/24 01:42
→ alvinlin : n)——這兩篇論文都討論了大型語言180.177.212.126 05/24 01:42
→ alvinlin : 模型(LLMs)在處理長上下文或多輪180.177.212.126 05/24 01:42
→ alvinlin : 對話時的能力限制,以下幫助你理解180.177.212.126 05/24 01:42
→ alvinlin : 兩者的關係與差異。180.177.212.126 05/24 01:42
→ alvinlin : 1. 兩篇論文的主題與核心問題180.177.212.126 05/24 01:42
→ alvinlin : Lost in the Middle (2024)180.177.212.126 05/24 01:42
→ alvinlin : 主題:探討LLMs在處理「長上下文」180.177.212.126 05/24 01:42
→ alvinlin : 時,對於關鍵資訊在不同位置(開頭180.177.212.126 05/24 01:42
→ alvinlin : 、中間、結尾)的利用能力。180.177.212.126 05/24 01:42
→ alvinlin : 核心問題:當關鍵資訊位於長上下文180.177.212.126 05/24 01:42
→ alvinlin : 的中間時,模型的表現顯著下降,呈180.177.212.126 05/24 01:42
→ alvinlin : 現「U型曲線」(首尾好,中間差),180.177.212.126 05/24 01:42
→ alvinlin : 即「中間迷失」現象。180.177.212.126 05/24 01:42
→ alvinlin : 重點場景:多文件問答、key-value檢180.177.212.126 05/24 01:42
→ alvinlin : 索等需要在長文本中定位資訊的任務180.177.212.126 05/24 01:42
→ alvinlin : 。180.177.212.126 05/24 01:42
→ alvinlin : Lost in Conversation (2025)180.177.212.126 05/24 01:42
→ alvinlin : 主題:探討LLMs在「多輪對話」中,180.177.212.126 05/24 01:42
→ alvinlin : 尤其是用戶需求逐步揭露(underspec180.177.212.126 05/24 01:42
→ alvinlin : ified, multi-turn)時的表現。180.177.212.126 05/24 01:42
→ alvinlin : 核心問題:LLMs在多輪、需求逐步揭180.177.212.126 05/24 01:42
→ alvinlin : 露的對話中,表現大幅下降,且 unre180.177.212.126 05/24 01:42
→ alvinlin : liability(不穩定性)大幅增加,容180.177.212.126 05/24 01:42
→ alvinlin : 易「迷失在對話中」。180.177.212.126 05/24 01:42
→ alvinlin : 重點場景:模擬用戶逐步補充需求的180.177.212.126 05/24 01:42
→ alvinlin : 多輪對話,涵蓋程式設計、數學、摘180.177.212.126 05/24 01:42
→ alvinlin : 要等多種生成任務。180.177.212.126 05/24 01:42
→ alvinlin : 2. 兩者的關係與差異說明:180.177.212.126 05/24 01:42
→ alvinlin : 兩者都關注LLMs在「長期記憶」或「180.177.212.126 05/24 01:42
→ alvinlin : 多步推理」場景下的能力瓶頸,在202180.177.212.126 05/24 01:42
→ alvinlin : 4年論文聚焦於靜態長文本的資訊定位180.177.212.126 05/24 01:42
→ alvinlin : 與利用。在2025年論文聚焦於動態多180.177.212.126 05/24 01:42
→ alvinlin : 輪對話中資訊逐步揭露與模型可靠性180.177.212.126 05/24 01:42
→ alvinlin : 。180.177.212.126 05/24 01:42
→ alvinlin : 兩者的「迷失」現象有相似之處(即180.177.212.126 05/24 01:42
→ alvinlin : 模型無法有效整合所有上下文資訊)180.177.212.126 05/24 01:42
→ alvinlin : ,而具體場景、評估方法和解釋略有180.177.212.126 05/24 01:42
→ alvinlin : 不同。180.177.212.126 05/24 01:43
→ alvinlin : 3. 2025年論文是否提出更多論點或解180.177.212.126 05/24 01:43
→ alvinlin : 決方案?180.177.212.126 05/24 01:43
→ alvinlin : 2025年論文的進一步貢獻:180.177.212.126 05/24 01:43
→ alvinlin : 更貼近實際應用場景:強調多輪、需180.177.212.126 05/24 01:43
→ alvinlin : 求逐步揭露的對話,這是現實用戶與A180.177.212.126 05/24 01:43
→ alvinlin : I互動的常態。180.177.212.126 05/24 01:43
→ alvinlin : 提出「可靠性 unreliability」新指180.177.212.126 05/24 01:43
→ alvinlin : 標:不僅看平均表現,還關注模型在180.177.212.126 05/24 01:43
→ alvinlin : 多次對話中的穩定性(同一需求多次180.177.212.126 05/24 01:43
→ alvinlin : 對話結果差異大)。180.177.212.126 05/24 01:43
→ alvinlin : 大規模實驗:涵蓋15個主流LLM、6大180.177.212.126 05/24 01:43
→ alvinlin : 類生成任務,並提出「sharding」方180.177.212.126 05/24 01:43
→ alvinlin : 法將單輪任務轉為多輪對話。180.177.212.126 05/24 01:43
→ alvinlin : 分析失敗原因:如模型過早下結論、180.177.212.126 05/24 01:43
→ alvinlin : 過度依賴前一輪錯誤答案、對中間回180.177.212.126 05/24 01:43
→ alvinlin : 合資訊利用不足等。180.177.212.126 05/24 01:43
→ alvinlin : 測試多種緩解策略:如在最後一輪總180.177.212.126 05/24 01:43
→ alvinlin : 結所有需求(recap)、每輪重複所有180.177.212.126 05/24 01:43
→ alvinlin : 已知需求(snowball),但發現這些180.177.212.126 05/24 01:43
→ alvinlin : 方法只能部分緩解,無法徹底解決。180.177.212.126 05/24 01:43
→ alvinlin : 總結:2025年論文雖不是簡單重複202180.177.212.126 05/24 01:43
→ alvinlin : 4年的發現,而是將「迷失」現象推廣180.177.212.126 05/24 01:43
→ alvinlin : 到更貼近真實用戶互動的多輪對話場180.177.212.126 05/24 01:43
→ alvinlin : 景,並提出了新的評估指標與分析框180.177.212.126 05/24 01:43
→ alvinlin : 架,對LLM未來改進提出了更具體的挑180.177.212.126 05/24 01:43
→ alvinlin : 戰。180.177.212.126 05/24 01:43
→ alvinlin : 4. 總結對比表180.177.212.126 05/24 01:43
→ alvinlin : 概念延伸180.177.212.126 05/24 01:43
→ alvinlin : LostInTheMiddle_2024180.177.212.126 05/24 01:43
→ alvinlin : +主題: 長上下文資訊利用180.177.212.126 05/24 01:43
→ alvinlin : +場景: 多文件QA, key-value檢索180.177.212.126 05/24 01:43
→ alvinlin : +貢獻: 提出新評估協議180.177.212.126 05/24 01:43
→ alvinlin : +現象: U型效應(首尾好,中間差)180.177.212.126 05/24 01:43
→ alvinlin : LostInConversation_2025180.177.212.126 05/24 01:43
→ alvinlin : +主題: 多輪對話下的可靠性180.177.212.126 05/24 01:43
→ alvinlin : +現象: 多輪下表現大幅下降, 不穩定180.177.212.126 05/24 01:43
→ alvinlin : 性增加180.177.212.126 05/24 01:43
→ alvinlin : +場景: 需求逐步揭露的多輪生成180.177.212.126 05/24 01:43
→ alvinlin : +貢獻: 新指標(可靠性) : , 大規模180.177.212.126 05/24 01:43
→ alvinlin : 多模型多任務實驗, 失敗原因分析,180.177.212.126 05/24 01:43
→ alvinlin : 緩解策略測試180.177.212.126 05/24 01:43
→ alvinlin : 5. 結論180.177.212.126 05/24 02:02
→ alvinlin : 這兩篇論文不是講同一件事,但2025180.177.212.126 05/24 02:02
→ alvinlin : 年論文在2024年「長上下文迷失」的180.177.212.126 05/24 02:02
→ alvinlin : 基礎上,將問題推廣到「多輪對話」180.177.212.126 05/24 02:02
→ alvinlin : 這一更貼近實際應用的場景,並提出180.177.212.126 05/24 02:02
→ alvinlin : 了更多新的觀察、指標和挑戰。180.177.212.126 05/24 02:02
→ alvinlin : 2025年論文提出了更多論點與分析,180.177.212.126 05/24 02:02
→ alvinlin : 但目前尚未有徹底的解決方案,僅測180.177.212.126 05/24 02:02
→ alvinlin : 試了一些緩解方法,效果有限。180.177.212.126 05/24 02:02
→ alvinlin : 如果你關心LLM在真實對話應用中的可180.177.212.126 05/24 02:02
→ alvinlin : 靠性,2025年論文的貢獻更大、更具180.177.212.126 05/24 02:02
→ alvinlin : 啟發性。180.177.212.126 05/24 02:02
→ alvinlin : 我指的是「新」聞。不是翻譯。也不180.177.212.126 05/24 02:03
→ alvinlin : 是早知道的東西。180.177.212.126 05/24 02:04
推 pacino : 這篇真的讚。 36.230.30.221 05/24 09:02
推 alex01 : 很像小朋友啊 223.136.175.36 05/24 14:57
→ pc1234 : 外行人看熱鬧 內行人看門道 111.82.189.178 05/25 15:15
→ vampirelin : 就懂點皮毛,然後一本正經的胡說八 101.10.236.56 05/26 03:06
→ vampirelin : 道 101.10.236.56 05/26 03:06