颜林林的个人网站

从外行角度来胡扯大模型的未来

2024-03-05 09:37
题图
(题图由AI生成)

一早起来,发现又一条关于大模型的新闻在各种刷屏,正如过去一年多经常见到的那样,某某产品又超越了某某产品,真的快到了司空见惯的程度。

诚然,大模型创造了诸多“奇迹”,让我们一改过去对电脑的刻板印象,突然发现这些程序竟然真的能“听懂人话”了。借助它,我们许多脑力劳动(诸如信息检索、汇总整理)得到前所未有的加速,以至于这个时代,再次被捧为“能够大批量制造超级个体”的时代。我自己受益于此,也坚信类似的观点。

然而,我对大模型的看法,并不全都是积极的。但因为我尚未亲身实践过大模型的底层技术,所以我只能从一个外行的角度,来说说一些我自己的不靠谱想法,权作抛砖引玉。

首先,基础数据的准确度,始终都是模型的瓶颈问题。无论具备如何海量甚至全面(全面到覆盖整个互联网,甚或包括所有暗网)的训练数据,模型都一定有目的指向(这一点类似于每个人都会形成自己的人生观)。而模型的目的指向决定了数据的使用方式,以及训练过程会朝着哪里收敛或演化。

机器学习有其“物理限制”:NFL定理(No Free Lunch Theorem,“没有免费的午餐”定理)。同样的数据,朝着不同方向的理解,得到的训练效果也是迥异的。在此逻辑下,我觉得大模型未来的发展,还是得深入每个细分领域,并针对特定的应用场景,才好充分发挥其强大的“推理”能力,加速这些场景下,过去需要靠人脑密集投入才能完成的工作。而提前做好相应准备,持续为这些场景积累高质量数据,将是占得先机的策略。

其次,大模型对算力的依赖和消耗,是绝大多数人都没法靠一己之力完成的。这会导致算力逐步向资源占有者的不公平倾斜,最终大模型未必真能解决大多数并不拥有足够资源的用户的真正需求。这也许就是我们如今看到的,正如段子说的那样:AI都在玩琴棋书画搞创作,留下人类去干脏活累活。当然,算力需求的持续攀升,可能触发两方面颠覆性创新:一是更大的能源来源,二是更高的能源使用效率。前者可能包括可控核聚变甚至戴森球,后者则很可能会有碳基算力(即生物计算机)。这些科幻般存在的概念,或许就因为需求的驱动,在不远的未来将变成现实。

此外,我个人并不认为大模型是唯一的出路,当我使用大模型辅助学习、建立知识框架,或修改润色文章时,我并不真的需要它“具备”整个互联网的知识,我需要的仅仅是可能涉及的那沧海一粟。到了具体的细分领域,一个经过充分调优的“小模型”,必然是能够胜过大模型的。正如在物联网领域,我们并不真的需要在每个机械臂的每个关节上,都安装上一套完整的高性能电脑。

最后,不得不吐槽的一点,因为种种不可描述的原因,数据并不会充分流通。看美国关于限制敏感数据流入中国的新闻,总让人忍不住会心一笑。很多人即使知道ChatGPT很好,但想要真正使用起来,也得跨越各种障碍。这不是一个“看重全人类利益”该有的状态,这其实与开源与否也关系不大。

--- END ---

注:本文首发表于“不靠谱颜论”公众号,并同步至本站。

相关文章