推 hsuchengmath: 為啥會沒有24小時後的資料,dcard文章不是一大堆, 05/16 07:55
→ hsuchengmath: 隨便爬都有啊 05/16 07:55
推 oopFoo: 我也覺的是這個方向,但關鍵字應該也是重要,但關鍵字如何 05/16 07:56
→ oopFoo: 提取,應該是dl訓練出來的。我覺的這題關鍵是如何提取關鍵 05/16 07:57
→ oopFoo: 字,不然有6小時的資料應該很容易預測24小時的愛心數。 05/16 07:58
推 oopFoo: 而且給time series的資料,應該就是想用transformer 05/16 08:02
→ DrTech: 5萬筆資料用transformer 去over-fitting? 資料量那麼少, 05/16 11:10
→ DrTech: 模型用那麼複雜,效果好也是運氣 05/16 11:10
→ DrTech: 沒有對錯,純個人不同看法。 05/16 11:12
推 ekids1234: transformer 一般來說要到哪個數量級才勉強及格 ? 05/16 12:27
推 oopFoo: 我猜現在所有人都在用bert/gpt,找intern應該也是想要延續 05/16 13:01
→ oopFoo: 公司正在做的,transformer也許不是最適合這題,但可能是 05/16 13:01
→ oopFoo: dcard想找的人。只是盲猜,提出來聊聊。面試,考題,機運 05/16 13:03
→ oopFoo: 蠻重要的。 05/16 13:03
推 oopFoo: 這種"標題"對"星星"的decoder應該很簡易訓練,反正資料少 05/16 13:12
→ h920032: 用BOW就夠了吧 05/16 13:38
推 penniless: 挑一個預訓練的中文模型,五萬條fine tune transformer 05/17 13:58
→ penniless: 很夠了... 2023了沒人在train from scratch 05/17 13:58
噓 brucetu: 你在講什麼 自己改題目? 還沒發文哪來的前六小時? 05/18 00:00
→ DrTech: 用transformer,尤其是直接標題放進去train就是準備 over- 05/18 00:05
→ DrTech: fitting啊,ML基本常識。 BERT Embedding+ 下游小模型,我 05/18 00:05
→ DrTech: 還覺得稍微有點ML常識。 05/18 00:05
→ DrTech: 這吳恩達的deep learning或各種ML經典教科書都有寫吧。資 05/18 00:06
→ DrTech: 料量少要用小模型。 05/18 00:06
→ DrTech: 或者把 transformer或BERT的layer抽掉幾層成為較小模型也 05/18 00:10
→ DrTech: 可。用小模型是為了降低模型的Variance,這基本常識吧。 05/18 00:10
→ DrTech: 這就是為什麼原PO用XGBoost LightGBM ,反而效果可能好 05/18 00:12
推 oopFoo: 這就是很詭異的地方,現在用LLMs,用少少的data fine tune 05/18 08:49
→ oopFoo: 效果奇異的好。也許LLMs裡的"知識"夠多,adaptation效果 05/18 08:50
→ oopFoo: 奇佳。在twitter上看到一些專研NLP的學者有點垂頭喪氣,說 05/18 08:52
→ oopFoo: 以後不用研究了 05/18 08:52
→ brucetu: 這也不是今年才這樣 沒人在from scratch了 05/18 20:04
→ DrTech: 你們都來亂的吧,你去看各種task排行榜,paperwithcode排 05/21 13:46
→ DrTech: 行榜,有哪個top-3 solution是LLM+fine-tune?完全沒有。 05/21 13:46
→ DrTech: 身為工程人員,講科學證據吧。不要靠幻想感受。 05/21 13:46
→ DrTech: 而且LLM跑一個完整預測結果,正常機器,要數秒。用怎麼可 05/21 13:48
→ DrTech: 能上正常有流量的產品。 05/21 13:48
→ DrTech: 效果好要講科學證據啦,公開資料集測一下,不要靠猜測或個 05/21 13:50
→ DrTech: 人感受。 05/21 13:50