这个老阿姨是我见过的最实在的把自己的无知和偏见展示的如此直白的人
范姐的意識形態本來就超級強,還要故做客觀貌,大家別為難她了XD
阿姨的政治濾鏡才是最深的,中國民間的強大創新能力如果你不是在地觀察過,你就永遠讀不懂中國,你的敵人將會不斷超越你的想象,畢竟你一直活在你的政治濾鏡當中。
如果deepseek出自美国或者日本,台湾会吹爆吧😂
阿姨,拜登下台了,USAID也垮了,BBC都唱多中國,外資湧進港科技股2週漲30%,你一定很難過吧!
人的成见就像一座大山
推這集來賓敢把很多檯面上講出來會傷國家面子的事情說出來,網路上有太多台灣自己人(特別是Threads)在幻想台灣在AI道路上比中國強, 但現實是人家技術人才比我們多,開源社群活躍度也很高,硬體資源人家就是有辦法靠各種方式搞到手,就算整體實力打不贏美國,至少也有一定的話語權 台灣反而這些方面: 1.軟體沙漠→人才外流 2.沒有基載能源能支持建構出ChatGPT規模模型的算力集群 3. GPU買的太少,目前台灣整個島如果能有快萬顆就得偷笑了 4.說要搞主權AI,結果訓練資料集目前也看不到有規模的在弄。 台灣的潛在優勢其實很多,但也看不見政府有想認真做,去年經濟部還說4年內要培養20萬AI人才,我就想問工作環境還有相關法規搞好了沒? 更別說有個AI法規專家的大法官提名人還被執政黨立委票掉,原因是批評執政黨太多次(???) 不說了,再說又要被說是中共同路人zzz --------------------- 不過這集節目有點直接定調DeepSeek (R1)的Base model是直接蒸餾ChatGPT訓練出來的,其實這是不太公平的說法, 首先你沒證據,微軟說有難道就真的有嗎? 有更多資訊可以佐證嗎? 別忘了市場崩跌前幾天才有Stargate投資計畫,人家才剛把錢丟進去,你怎麼能確定這不是短暫安撫市場的一種說法? 再來假設以蒸餾ChatGPT訓練為前提的情況下,一定會有極大量呼叫API請求,如果真的這樣幹OpenAI不可能不知道,用訓練總token數來算API呼叫成本也會超級貴,甚至會高於其他家LLM的訓練成本,綜上所述,這些無法證偽的資訊來源先觀望就好,急著相信會顯得自己很理盲
來賓把deepseek的成功只歸功於蒸餾 真的是蠻淺層的觀點... 還不斷講說自己2023年就想蒸餾ChatGPT 只是擔心道德blablabla 但蒸餾真的不是重點... 推薦大家去找科技浪來聽 特殊的MoE訓練方式、不call cuda直接寫PTX等 確實有蒸餾沒錯 但如果只是蒸餾 不會這麼有影響力 這是技術 不用這麼宣揚deepseek 但也不用把deepseek說得這麼廉價
Deepseek都開源和公開論文給世界了,他就是一個AI史上的進步而已,跟是不是中國沒什麼關係,deepseek就是AI進步的推手,是人類共同的資產
AI不要扯上政治與宗教,否則是自討苦吃。這位阿姨明的是討論AI問題,其實完全是繞著政治轉,悲哀!
主持人說美國禁用Deepseek,我本人就在美國,根本就沒有這回事,希望主持人以後講話之前最好要查證再講,否則就是誤導觀眾。 之前還說美國禁TikTok,也是謊言。
這嘉賓也夠雙標。說自己被道德框著所以沒去蒸餾openAI, 但又理直氣壯的說可以抄Deepseek 的技術,把他叫作TaiwanSeek。抄美國爸爸叫侵犯知識產權,抄中國就是把deep seek教導成善良的孩子,噁心。
这位嘉宾似乎对大语言模型的相关技术并不了解,完全搞不清DeepSeek到底有什么创新。很怀疑他是不是读过DeepSeek V3和R1的论文,里面对它用的特别创新的方法讲的很清楚,跟蒸馏完全没什么关系。 我从外行角度记得论文有提到: 在不需要精度的部分只用8位浮点精度, 大幅减少了内存占用; MoE模式,用许多小的专家模式来组成更复杂的模型;采用非人力干预的加强学习机制训练;运行的时候只有相关的参数被激活,而不是所有参数激活;绕过CUDA用底层语言优化性能等等。。。 而且DeepSeek R1是世界上第一次提供了大数据模型的思维链(Chain of Thought)的模型,还有啊哈现象,模型会自我反省推理的方向。 再加上只用了很少的GPU资源来训练,性能跟马斯克用20万GPU卡训练出来的只有10% 的差异,全世界没有大资金的创业者和研究者都被激励积极参与AI。
通篇在给自己戴高帽,说得好像自己因为尊重知识产权,所以才没能先于DS一步推出大模型,我给足脸你好吧,就算DS开源,你还是搞不出大模型,你搞不出大模型是因为你不想用蒸馏?你可拉倒吧
自己做不出来的题,你看了学霸的题后恍然大悟,心想这也不难啊,我中间其实也想到类似的框架和理论了。你觉得你和学霸好像也没多差,这恰恰就是问题所在。
看得出阿姨很不情願相信它是大創新,哈哈哈。不看片面,看趨勢,你不覺得越來越多案例讓你去質疑中國是不是大創新?這已經說明事實了。另外,回過頭看王志安那一集,自由民主與創新不必然呈現正向關係。不要去相信自由民主好像就是甚麼都好,請打破這迷思,別上帝視角了。
根本是乱讲,蒸馏可能deepseek会用到,但绝对不是它性能的主要因素,而且每家公司都会去蒸馏市面上所有能找到的效果好的模型
Volkswagen CEO: 当我一下飞机在上海的马路上开了5分钟,我就抛开了对中国的认知
刘先生作为科技理科人才是相对理性客观的,他也知道他的对面是怎样的人,所以说话也都在客客气气小气翼翼怕对方接受不了🤣
@fanamericantime