在生成式AI泛滥时代，如何鉴别信息的真伪？

2024-01-29 09:44

（题图由AI生成）

在生成式AI泛滥的时代，鉴别信息的真伪变得日益重要。受过系统性科研训练的人，通常采用一种有效的方法：追溯信息的原始来源及支持证据。即便AI技术正在持续大幅降低信息伪造的成本，面临如此挑战，这种方法也仍然是有效的。

在科研写作中，陈述任何事实时都必须提供信息来源，并且通常都要求引用第一手资料，即得出该事实结论的原始研究工作。这一规则确保了读者能够根据引用关系，追踪到原始文献，从而理解支持某一事实的证据有多充分。这种追本溯源的能力，不仅是科研人员的基本功，也是硕博生培养的重点之一。

相比之下，一些不负责任的媒体在报道时往往隐藏信息来源，采取各种手法进行裁剪，其内容就显得很不可信了。但大多数观众和读者并未养成追溯信息来源的习惯，因而容易被“劲爆”的内容吸引，助长了虚假信息的传播。这种情况在生成式AI泛滥的背景下变得更加普遍。

回顾十几年前，我曾参加考研英语冲刺班。当时我的英文水平很烂，写作文时经常陷入“便秘”，其他同学应该也类似。培训班教我们使用各种废话句式和虚构引用，例如加上“As all around the world known”（众所周知）或“Nothing could be further from the truth”（真得不能再真了）等词句来凑足字数，或是加上“As Dr. Wang said,”（如王博士所说）或“As Professor Zhang said,”（如张教授所说）来“增强可信度”，按培训班老师当年的说法，“王博士是谁，张教授是谁，没人知道，也不重要”。为了拥有学习如何成为“诚信”科研人员的资格，却需要通过这种明显不诚信的方法来通过考试，想想也挺讽刺的。

幸好，后来的科研训练纠正了我的这一行为，避免我在歧途上越走越远。但我们都知道，考研的录取率其实是非常低的，大量参与过该写作学习的人，最终都未必有机会被纠正行为，这种连锁危害，也必然已经波及到更深远的范围。在如今生成式AI技术被各行各业追捧得火热之际，缺乏道德底线的约束，只会让问题变得更加棘手。比如，生成式AI可以轻松地生成看似专业的支持证据。除非我们去专业的文献数据库中查询并逐一确认信息来源，否则几乎无法区分真伪。这不仅加重了读者的负担，而且作为科研工作者，我们也不可能对每件事都深入本源进行验证。我们都精力有限、时间有限、眼界有限，必须依赖前人的工作，才能勉强推进一点点科研的边界，如今却要消耗更多，只为确认自己正在构建的大厦，并非构筑于沙地。这也是很多人极力反对在科研发表过程中过度使用AI的重要原因。

事实上，这种追本溯源的过程，正是一种知识推理，也恰恰是大型语言模型所擅长的。如果AI不产生幻觉（Hallucinations，即胡编乱造），我们最终还是会依赖它来判断信息的真伪。追溯并确认证据链条上每个环节，是确保信息真实可信的基本原理。尽管如此，完全编造整个证据链条并非不可能，只不过需要消耗更大的资源（如算力）。真实和虚伪之间的博弈，最终也会演变成算力等资源的角逐，这听起来挺魔幻的。这指向了我们也许需要另一种东西：可信的、不可随意篡改的信息长期保存机制。这在现实中类似于科研论文发表体系（虽然这个体系其实也受到了恶意侵染；许多人正在致力于解决这个问题），但我们需要将其扩展到更广泛的领域，拥有更完善的检索功能和实时更新能力。这听起来可能像是区块链或Web3.0的概念，但它们该以怎样的方式得以正确应用，最终效果到底如何，仍需时间来检验。

--- END ---

注：本文首发表于“不靠谱颜论”公众号，并同步至本站。

颜林林的个人网站

在生成式AI泛滥时代，如何鉴别信息的真伪？

相关文章