Skip to content

一些自问自答

为什么 2024 年我还在学习传统 Transformer 而不是 LLM?

  1. 一是因为很多需要落地的项目,传统的 Transformer 已经足够好使,而且这些场景一般更关注,LLM 在这两点上暂时还不满足需求。
  2. 二是将来一定是,熟悉传统小模型在未来依旧有用武之地
  3. 三是我上学和工作的时候,大部分时间都花在了工程实践上,且研究方向不是人工智能,所以很少有机会从头认真梳理和思考这个领域的经典工作,现在就算是补课了。

我以前写文章有什么问题?

  1. 一是以前我的笔记和文章总是追求大而全,恨不得一开始就梳理出一个完整且系统的脉络出来,结果最后大部分是半途而废,很多笔记只写了一部分草稿,还没发布就弃坑了。但如今回过头来看我以前写的东西,发现最丰富最有用的内容,反倒是那些零零碎碎的笔记
  2. 二是总是包袱太重,生怕自己班门弄斧、贻笑大方,一看到别人已经珠玉在前,自己就不好意思再写重复的了。但其实任何文章发出来,总会有读者从中受益,同时还能在评论区收到别人的正面或负面反馈,作者本身也会有新的收获。并且每个人的视角不一样,就算大部分地方是复述,也总存在不同于其他人的地方。

总之,我们不要四面出击。……必须在一个方面有所让步,有所缓和,集中力量向另一方面进攻。……我们的政策就是这样,我们的战略策略方针就是这样……

——毛泽东《不要四面出击》(1950年6月6日)

这个系列文章应当注意什么?

  1. 不要写成族谱和流水账。大部分模型和算法其实核心思路就那么点,艰深晦涩的公式只是为了使提出的理论更站得住脚,纷繁复杂的实验只是为了证明方法的优越性。,切忌长篇大论,切忌变成论文罗列仙人和资料整理狂魔
  2. 不要担心不够专业和深入;。作为学徒,写这些的目的是记录学习和思考过程,而不是写一本教科书。第一读者是自己,第二读者是未来的自己。

由此可知,任何过程如果有多数矛盾存在的话,其中必定有一种是主要的,起着领导的、决定的作用,其它则处于次要和服从的地位。

因此,研究任何过程,如果是存在着两个以上矛盾的复杂过程的话,就要用全力找出它的主要矛盾。捉住了这个主要矛盾,一切问题就迎刃而解了。这是马克思研究资本主义社会告诉我们的方法。列宁和斯大林研究帝国主义和资本主义总危机的时候,列宁和斯大林研究苏联经济的时候,也告诉了这种方法。万千的学问家和实行家,不懂得这种方法,结果如堕烟海,找不到中心,也就找不到解决矛盾的方法。

不能把过程中所有的矛盾平均看待,必须把它们区别为主要的和次要的两类,着重于捉住主要的矛盾,已如上述。 但是在各种矛盾之中,不论是主要的或次要的,矛盾着的两个方面,又是否可以平均看待呢?也是不可以的。无论什么矛盾,矛盾的诸方面,其发展是不平衡的。有时候似乎势均力敌,然而这只是暂时的和相对的情形,基本的形态则是不平衡。矛盾着的两方面中,必有一方面是主要的,他方面是次要的。其主要的方面,即所谓矛盾起主导作用的方面。事物的性质,主要地是由取得支配地位的矛盾的主要方面所规定的。

——毛泽东《矛盾论》“四 主要的矛盾和主要的矛盾方面”(1937年8月)