图/cfp
文 | 曹宇(博士、阿里巴巴大模型算法专家)
*本文系作者参加九派新闻“九派圆桌”直播《生成式AI:泡沫将至?》议题讨论上的发言整理而成,发布前经作者审阅。
我们终将面临预训练数据耗尽的一天
我们正处在一个技术迅猛发展的时代。回想18个月前,ChatGPT在人机对话领域展现出了前所未有的能力,令我们惊叹不已。然而,随着时间的推移,我们也逐渐发现,尽管在某些方面取得了显著进步,ChatGPT在其他领域仍存在不足和短板。
但即便如此,作为行业从业者,我们每天都能见证到技术的持续进步。例如,大模型在发展过程中,虽然被批评为存在“幻觉”现象——即在生成内容时可能会产生与现实不符的信息,但这也反映出大模型具有强大的想象力和创造力。如何在保持这种创造力的同时减少幻觉现象,是工业界在推广大模型应用时需要面对的挑战。
我对此持相对乐观的态度,这也是我投身于大模型研发的原因之一。我们应当保持乐观,同时谨慎地看待大模型发展中的不足,并寻求合适的方法使其更好地服务于各行各业。
目前我们能够接触到的信息,无论是开源的还是闭源的大模型,都包含了大量的数据。以开源模型为例,它们已经训练了大约15T个token,它们所学习的语料几乎涵盖了互联网上所有公开可获取的知识。
至于大模型的表现,需要根据不同领域和场景来评估。在自然语言处理等传统领域,大语言模型已经达到了相当高的水平,比如在垃圾邮件识别和有害信息判断方面,相较于以往的模型有了质的飞跃。然而,在一些复杂的推理任务上,比如比较9.1和9.9这样的数值,许多大模型的表现仍未达到人类的期望。这与大模型的训练方式和我们目前依赖数据规模的趋势有关。
大型语言模型之所以强大,是因为它们能够处理多种模态的数据。我们之前提到的15T数据,指的是目前互联网上可获取的文本信息。但正如人类与世界的互动不仅限于文字一样,我们对世界的感知也包括声音、视频等多种信号,这些信号还有待我们进一步挖掘。
随着计算能力的提升和算法的进步,AI处理数据的速度将越来越快,我们终将面临预训练数据耗尽的一天。尽管这看似不可避免,但我们在数据方面仍有新的探索空间。例如,合成数据在特定领域已经证明能够显著提高数据利用效率,并为我们提供了除人类生成数据之外的新数据源。
因此,我认为,我们不仅有许多未被充分利用的模态数据,如互联网上的视频,合成数据以及AI之间的多智能体交互数据,也将成为未来数据训练的宝贵资源。
生成式AI在推理成本方面的挑战,是业界普遍面临的问题。在日常工作场景中,大模型在某些方面确实能够提高效率,例如处理Excel表格中的重复项。这些任务往往难以通过简单的公式或拖动操作完成。业内已经有一些工具能够较好地解决这些问题,比如基于Excel表格制作报表。
然而,大模型的尺寸和能力几乎是成正比的,这导致在实际应用中,为了满足更多人同时使用模型的需求,我们不得不在精度和效果上做出妥协。这使得在某些使用场景中,大模型的表现有时可能达不到我们的期望。
此外,大模型的应用形式目前还相对单一。我们希望大模型能够帮助我们在日常工作中进行创意生成和写作,但有时我们会发现AI的痕迹过于明显。如果我们审视互联网上的整体数据质量,显然不如人工精心撰写的文章和报道的质量高。因此,如果我们想在人工智能领域继续提升,我们必须让人类与人工智能形成一种助手或伴侣的关系,而不仅仅是以AI的输出为标准。
图/cfp
大模型具有一定欺骗性,可能会隐藏真实意图
我仔细研究了发表在《自然》杂志上的一篇文章,它与我们每个人的工作以及大模型的未来紧密相关。我为大家简要概述一下文章中的一些结论和实验方法。
文章的核心内容并不是说大模型在与我们对话9次后就会变得更差,而是探讨了一个有趣的问题:如果我们用大模型自己生成的数据去训练它,它的表现会变好还是变差?研究者的一系列研究结果令人有些失望,因为并没有如我们预期的那样,通过使用大模型自身生成的数据来训练,使其学习效果得到提升。这与人类举一反三的能力似乎有所不同。
然而,我们需要注意的是,这项研究在某些方面与我们在大模型研发或实际应用中的做法有所不同。首先,我们是否在大模型的训练过程中,仅仅使用它上一轮输出的结果进行下一轮训练?实际上,大多数团队目前都在采用一种名为“人类反馈强化学习”的技术来训练模型。这种技术的核心在于,人类的标注员会根据大模型的输出给出奖励或惩罚的信号,这些信号将决定大模型在下一步训练中应该采用哪些数据。
目前的结果表明,通过这种方式可以有效避免大模型仅依赖自身数据而陷入退化的过程。但这种技术仍有其局限性,例如我们之前提到的事实性或幻觉问题,虽然可以通过人类反馈强化学习得到部分改善,但并非完全解决。
因此,在业务实践中,包括我们目前实际使用的大模型产品中,我们有时会加入一种称为信息检索的功能。大模型会像人类一样在互联网上搜索和查询相关信息,并综合这些信息为用户提供最终答案。虽然这样的答案可能需要更长的时间来检索,但从整体的可解释性角度来看,至少大模型能够提供其做出判断的信息来源。这使得人类用户可以进行更进一步的研究和查看,以决定是否应该相信这个模型,或者是否需要进行更深入的探索和判断。
同时,大模型的数据安全和整体安全性也是一个极其严肃的议题。最近OpenAI的一场风波,实际上源于公司内部安全团队对公司政策的不满,他们认为商业团队在推出大模型产品前,并未对其进行充分的安全评估。从数据层面来看,我们已经付出了许多努力,以期消除大模型可能带来的安全风险。但研究者发现,大模型本身具有一定的欺骗性,它可能会在某些情况下隐藏自己的真实意图,并通过其他方式来实现其最终目的。
这种现象听起来令人不寒而栗,颇具科幻色彩,但在特别大规模的模型中,这种自发的涌现现象确实被证实是有可能发生的。因此,一些研究者愿意站出来,进行独立的模型安全评估和相应的安全体系建设。然而,我们必须坦白,这一领域的工作还处于非常早期的阶段,因为它涉及到将大型神经网络的黑盒模型转变为白盒或灰盒模型,并对其进行解释的过程。
在这个领域的投资方面,可能只有中美两国会严肃对待这一问题。因为如果从更大的范围来看,这不仅关系到技术层面,还可能涉及到政府或立法层面的共同努力,以帮助整个产业在快速迭代的情况下抑制模型可能存在的风险因素。
与此同时,我们也看到美国的一些大型企业对这一问题的严肃态度。例如,OpenAI就聘请了NSA前负责人来负责相关的安全事务。我们也在探索国内关于模型安全的早期研究,包括通过模型本体的探查等手段,这些技术正逐渐成熟,未来将使我们对模型本身的安全性有更深入的理解。
在Sora发布之初,我们被许多令人印象深刻的宣传视频所吸引。然而,随着时间的推移,我们发现反而是中国国内的一些公司抢先推出了可试用的产品,并在OpenAI之前完成了一些商业化动作。
这背后的原因有很多。首先,多模态模型可以分为两大类:一种是多模理解模型,它们的主要作用是处理图像或视频,并以文字为主要参考形式进行理解和生成任务。这类模型的应用场景与传统的AI,如计算机视觉(CV)模型用于工业质检等任务更为相似,其基础架构也与“变形金刚”Transformer模型更为接近。
另一大类则是以生成为主的模型,如扩散模型(diffusion models)。虽然它们都属于大型模型,但在结构和原理上存在一定差异。技术上,Sora这类模型面临的挑战在于,扩散模型需要在图像和视频上生成扩散过程,其推理成本和对训练数据的要求是完全不同的量级。因此,在扩散模型的应用场景中,仍有许多难以处理的边缘情况,这使得用户体验可能会感到有些奇怪。例如,早期的讨论模型在生成图像细节时,尤其是人物的手部,会发现手指数量和弯曲方向存在明显差异。
在视频模型中,这种问题会被放大,因为视频模型不仅要求艺术上的美感,还必须符合物理定律。例如,一个经典的视频展示了战舰在咖啡杯中战斗的场景,虽然战舰和咖啡杯的绘制非常出色,但如果仔细观察,就会发现波浪的生成和破碎原理与真实波浪存在很大差异。总的来说,由于计算力要求极高,需要遵循物理世界的要求,以及实际使用过程中的体量不如理解式模型大,这三点使得Sora的延迟发布在技术和使用逻辑上是可以理解的。
ora横空出示,引爆互联网。图/cfp
中国在大模型创新方面相对较为跟随
中国拥有全球最大的移动互联网市场,我们每个人对互联网、移动互联网高质量信息的需求都在不断增长。因此,在中国市场中,我们发现最早出现的是一些轻量级的应用,比如AIGC绘图、具有漫画风格的拍照功能等,这些都是非常贴近用户需求的方法。这与美国将AI优先应用于ToB市场,服务企业级市场的做法有所不同。
这种差异与我们庞大的互联网用户基数和相对完善的基础设施建设密切相关。在良好的基础设施支持下,即使是AI游戏,也能采用集中式推理模式,从而降低每次请求的成本。这在一些欧美国家并不那么容易实现。同时,我们的智能手机和智能硬件的普及率在全球也是名列前茅,这是中国市场的优势,但我们也不能忽视自身的短板和长期基础设施建设的需求。
国内AI的发展仍然依赖于高端GPU芯片或华为高端NPU芯片等算力基础。在这方面,中国头部玩家的规模与国外头部玩家相比,还存在量级上的差距。至少我们可以看到,一些国外玩家拥有超过10万块的GPU加速卡,这有助于他们快速进行最新的训练,并将训练结果迅速应用于To B的商业闭环中。这反映了中美在大模型应用的细节和方向上的差异。
我认为中国在大模型创新方面相对较为跟随。大模型架构本身是由美国谷歌公司首先发明的,包括许多我们现在熟知的大模型训练方法,也是基于国外同行的基础。然而,尽管存在这些短板,国内仍有许多优秀的研究者在努力追赶这两个趋势,使我们在大模型的基础研发和算法创新方面能够迎头赶上。
在我看来,目前我们国家对AI的定位以及对其作为新质生产力的理解已经深入人心。早期,我们可能认为私人AI,如ChatGPT,只是一种聊天工具,用于闲聊。但很快我们意识到,它实际上是一种能够在某些方面替代人们进行低层次重复劳动的新质生产力工具。
在这种定位下,无论是从应用向基础设施建设发展,还是从基础设施建设向应用迈进,我们都有一个明确的发展方向。我们对生成式AI的期待是,它不仅要在简单的闲聊或对话场景中发挥作用,更要将其新质生产力的能力赋能到各行各业。
例如,阿里希望为用户提供信息获取上的服务和便利。但在偏远地区,由于上网不便,人们对AI的了解非常有限。在这种情况下,我们如何让他们对国家新质生产力的变革有一个基本的了解呢?阿里做的一个基础尝试是,利用AI帮助偏远地区的学生进行高考志愿填报的参考。
这在我们应用的领域中只是一个非常细分的小领域,但它实际上能够帮助学生,就像有一个经验丰富的老师一样,耐心地与他们进行对话。这样,我们就消除了信息获取上的一些不公平现象。我相信,随着越来越多的应用场景的出现,基础设施和应用之间的协同效应将越来越强。到那时,我们在软件供应上的短板和缺陷,可能会有机会迎头赶上。
生成式AI的应用还在培养用户习惯、收集需求
关于当前生成式 AI 的盈利模式,我们可以将这个问题放在更广阔的视角下审视。
AI已经形成了一个完整的产业链,它不仅仅是AI技术本身。如果我们从整个产业的角度来看,就会发现产业内部有明确的分工。从最基础的层面来看,与AI相关的硬件芯片制造商,如英伟达、华为等,它们仍然保持着良好的盈利状态。这种优势是由基础设施的先进性和技术领先性所决定的。
在硬件之上,AI领域最关注的是云计算和云基础设施。这一领域的盈利模式已经相对明确,主要是通过销售资源型的服务。各种模型厂商和应用提供商,它们的角色更像是零售商,将大量的算力批发给有需求的应用方使用。
我们也看到,国内一些领先的厂商的盈利模式逐渐清晰。但目前看来,情况并不乐观的是模型层之上的一些业务应用领域。大模型本身是一个高投资、高回报且回报周期长的事物。以OpenAI这样的行业领头羊为例,它们在研发上的投入已经超过五年。
如果我们回顾早期的GPT系列,考虑到它们的历史总研发成本,其回报周期是相当长的。但我们也应该清楚地看到,在这个长回报周期中,订阅用户数、API调用量以及每天消耗的GPU算力一直在增长。即使现在ChatGPT的订阅用户量已经达到顶峰,但对于商业级用户来说,对头部模型的需求仍在不断增长。
再来看整个产业链的上游,更像是我们所说的大模型的应用层。说实话,大模型的应用层现在出现了一些两极分化的情况。一方面,国民级的AI应用占用了大量的GPU资源,但并没有特别明显的商业盈利模式。我们目前使用的大多数APP也是免费的,不需要像传统模型那样收取订阅费。这恰恰反映了一个现状:许多APP还处于早期应用形态,许多厂商还在培养用户习惯,并在这个过程中收集真正的用户需求。
因此,从整个产业链来看,不同层的厂商或不同层的业务形态,它们的盈利模式和周期都是不同的。有的厂商可能感到乐观,有的可能感到忧虑。
英伟达的股价近期波动,很容易让人联想到市场对这个行业的信心和期待。从长期来看,尽管短期内有下跌,但英伟达过去一年的累计涨幅仍然相当可观。市场环境,尤其是美国资本市场,与投资者情绪密切相关。他们对英伟达能否在未来的生成式AI领域保持领先地位并继续获得超额利润持观望态度,这种情绪在很大程度上影响了市场对英伟达的看法。
市场的这种情绪并非没有道理。英伟达的芯片因为封装工艺问题导致交付延迟,这对资本市场来说是一个不利信号。同时,英伟达对大客户的依赖性很高,其大部分收入来自美国几家进行大模型训练的公司。然而,在当前美国大力投资基础设施建设的背景下,其他公司也对英伟达的市场虎视眈眈,没有人愿意忽视这块利润丰厚的蛋糕。此外,英伟达的一体化销售策略可能会促使大客户考虑建立自己的系统。
从技术角度来看,英伟达是一家非常有耐心的公司。自其深度学习计算芯片问世以来,英伟达投入了大量资源,甚至在研究人员还处于学术阶段时就开始提供帮助和赞助。这种长期的投入培养了用户的使用习惯,现在正是英伟达收获的时候。
然而,我们也必须注意到,技术发展并非总是一帆风顺。例如,GPT-5的开发已经持续了很长时间,但至今仍未发布,这对市场情绪和OpenAI继续销售其最先进模型的能力产生了影响。这些纯技术因素,加上市场的其他消息,都是我们未来可以深入探讨的话题。
从我观察到的趋势来看,成本无疑是在不断上升的阶段。无论是国内的互联网巨头还是初创公司,他们都处于一个充满活力的阶段,希望在未来竞争激烈的市场中分得一杯羹。
在这其中,最主要的两个研发相关成本是算力投入和人力研发成本。这两个因素可以说是成本上升的主要驱动力,这主要是由于这两种资源本身的稀缺性造成的。
其次,大模型研发过程中人才的稀缺程度也是一个不容忽视的问题。对于大模型而言,训练核心算法、调整策略或进行算法策略的迭代可能是最终算法和应用表现的最重要因素。因此,掌握相关技术的人才在市场中的价值也在不断上升。有传言称,一些OpenAI的前研究员的薪资可能达到了数百万美金的规模,这实际上并不比相应的训练资源成本低。
此外,我还提到了国内许多产品,包括大模型应用,都集中在产品侧。产品侧的运营推广和流量曝光费用,在较大规模上也是相当可观的一笔开支。在这些领域,由于资源的稀缺性和渠道本身的竞争趋势,我们看到的成本或开支趋势一直在上升。
英伟达全球总部。图/cfp
人类历史上很少对一项技术倾注如此多的情感
AI技术的原理本质上是对世界进行概率性预测。简单来说,它就是对下一个token——我们可以将token理解为字或词的一部分——进行概率分布和理解。AI并没有脱离其作为一个概率模型的本质。既然是概率模型,它就有正确预测的可能性,也有出错的风险。因此,我们不能完全依赖纯概率模型来期望它准确完成所有任务,这是技术本身的局限性。
为了弥补这种技术限制和错误,业界已经提出了许多解决方案。许多方案都在尝试预测下一个token,但这些模型实际上无法预知未来会发生什么。比如,人类在说话时,大脑会先构思一个框架,知道自己要分几点阐述,可能会采用总分总的结构。但大型语言模型由于限制了自己在推理过程中只能机械地预测下一个token,这使得它的概率特性在某些场景中被不断放大。
因此,近期的研究工作希望大型语言模型能够具备一定的预测未来和自我反思的能力。例如,模型在说完一段话后,能够根据自己所说的内容进行额外的确认和修改,这可能会提升其能力上限。
如果我们将视野聚焦于AI技术本身,AI行业已经经历了多年的起起落落。我们之前也经历过多次所谓的“AI寒冬”,每一轮寒冬都是在技术上遇到了难以突破的瓶颈,当时人们对这项技术持有很大的悲观情绪,或者认为它是不切实际的。
但我们发现,每一轮新的AI浪潮都是在吸取了之前的错误基础上,发展出新的范式和方法。因此,我们当前的AI热潮和对AI的期待,是在前两次寒冬的基础上充分吸取了经验和教训,并在范式上尝试创新和修改。在这个不断变化的世界中,我相信只有通过不断的创新和试错,我们才能更接近我们追求的真理,以及我们追求的更智能的范式。
我们 AI 技术未来它要发展到什么样的一个程度,才能够说我们产生这种收支平衡的一个效益,或是说缩短收益的一个效期?
这个问题具有很强的技术前瞻性,同时也涉及一些务实的技术解决方案。据我观察,我们至少可以在两个方面解决目前面临的技术问题:一是硬件成本的持续降低,二是新硬件架构对我们整体成本下降的贡献。
在美国,有一家独树一帜的公司名为Soho,它做出了一个非常大胆的决策,将整个公司的资源和信任都投入到大语言模型未来能够成功的道路上。它在芯片的底层设计中就融入了对transform结构——也就是大语言模型的核心——的深入理解。这种专有硬件的设计,可以在现有成本基础上,将每个token的推理成本降低10倍到100倍。然而,由于其通用性受到很大限制,它的成功高度依赖于transformer在未来的表现。
另一方面,在算法领域,我们也有了惊人的发现。现在有效的算法不仅仅只有transform结构一种。例如,国内团队开发的一个名为Ra的库,它是一种自回归的轻量级小模型,我们惊讶地发现,一些国外大厂,比如微软,在Windows系统中也开始尝试使用成本较低的CPU资源来进行推理替代。
从算法和硬件两个方面,我们都发现了一些令人期待的亮点。但除此之外,我们还可以关注到除了纯技术因素之外的其他方面。实际上,我们的应用正在逐渐成熟,应用本身带来的附加价值,最终会在某个时点赶上其成本。这才是问题的关键。我们现在讨论的token,不仅仅是在开播时提到的为程序员提供高效编码能力,我们更希望这样的模型能够更加贴近实际需求。目前的情况是,人类在辛苦地进行各种重复性工作,而AI却在阅读、绘画和写作,这与我们最初的期望是完全不同的。
在产品和技术领域,我们常常不得不面对一个敏感话题,那就是产品的投资回报率(ROI)。坦白地说,目前许多产品的ROI相对较低,我们更多的是在用ROI来换取增长。在这个过程中,我们实际上在关注两件事情:一是ROI的关注点不应仅仅局限于经济利益,尤其是在技术早期阶段,我们更关注它能否带来巨大的经济价值。二是AI技术与其他技术的不同之处在于,人类历史上很少有机会对一项技术倾注如此多的情感,我们几乎像对待人一样去训练它。在华语地区,对于大模型的训练,我们通常称之为“训练”,而在港台地区,则更倾向于使用“培训”这个词,后者更具有人情味。
我个人对ROI的看法是,目前我们使用的这套评价体系,它判断产品成功与否的标准是基于一个相对较短的时间周期内的价值。如果我们将产品的ROI周期延长到18个月甚至36个月,我们可以清楚地看到成本下降的趋势是非常明显的,这一趋势不仅在国外明显,国内也有很多公司在这条道路上快速发展。
当我们做出投资技术的决策时,我们考虑的最重要的点并不总是纯粹的短期物质回报和利益。以OpenAI为例,它的许多创新点纯粹是出于对技术本身的热爱和对真理探索过程中迸发的机会。如果没有像OpenAI这样的公司,我们的世界可能会有所不同,但有了像ChatGPT这样的技术和一群专注于技术的热爱者,他们将对技术的初心发挥到了极致,为我们提供了提升AI能力和认知的机会。
因此,ROI是一个指标,但对于包括我在内的技术人员来说,如果我们有机会去探索,我们既要脚踏实地,也不要忘记仰望星空,因为中华民族是一个想象力非常丰富的民族,我们创造了许多异想天开的东西,在AI时代,我们有机会去实现这些梦想。
许多人都在讨论AI技术的瓶颈,却忽略了技术与人的关系
互联网早期的发展,大多数是基于我们现在所理解的结构化数据。这种方式成本相对较低,且能快速见效。所有的数据,比如年龄、偏好、习惯等,都通过大量的人工或自动化工程,以表格和字段的形式存储在数据库中。
结构化数据之所以成为互联网服务的基础,是因为其处理、存储和消费的成本相对较低。然而,我们所生活的世界实际上是非常非结构化的。我们在对话中,以及日常生活中的许多习惯,很难通过一个字段或一个冷冰冰的数字来表达。我们希望通过大型模型,能够充分利用非结构化数据中蕴含的信息和内容。
目前,这些场景可能并不容易被大众直接接触到。例如,非结构化数据处理和用户习惯总结,很难通过传统的大数据方式来实现。在这个领域,大型模型已经开始在幕后发挥各种作用。
以我们正在进行的对话为例,过去在会议中,我们需要专门的记录员来记录会议内容。但现在,如果我们使用市面上的一些软件,AI进行会议记录和总结的精度和成本已经大大降低。这相当于为每个人配备了一个会议记录员,其成本肯定远低于雇佣一个专业记录员的费用。这是一个非常具体且贴近实际的例子,我们每个人都拥有了随身的数据助手。
至于大型模型对整个行业、GDP以及国家经济的推动和贡献,未来会如何发展,每个人都有自己的推测和想法。这也是每个人关注技术的角度和期限不同所导致的。
风险投资者可能更关注长期趋势,而宏观投资者可能更关注技术对产业格局的影响。像我们这样的普通技术从业者,可能更多地关注技术本身的兴趣点和成长潜力。至于对GDP的推动,我们可以认为当前AI浪潮与上一波AI浪潮中的部分泡沫有关。在上一波AI浪潮中,我们积累了可能过量的GPU资源,为当前AI浪潮奠定了基础。未来这个泡沫是否会破裂,或者被更多技术创新所充实,将取决于每个行业从业者和用户对我们技术的接受程度,这仍然是一个存在较大不确定性和变数的问题。
我认为技术更多地与人的需求相关,而不仅仅是技术本身。我们注意到,原来的互联网泡沫时期,我们有时过于关注技术本身,反而忽视了技术是为人民服务的这一本质。在互联网泡沫的早期,我们过分强调了互联网提供的快速便利的能力,以及高速带宽等各种未来使用形态,看起来过于科幻。但实际上,互联网泡沫发生的原因之一是,那个时代的互联网并没有现在这么多接地气、与人相关的好用应用场景。
例如,在互联网泡沫时期,网上购物几乎是不可能的,因为我们过分强调了互联网的信息交流能力,却没有意识到人们使用互联网的目的是为了服务于人类自身。当然,这个比喻放到现在,对于AI,尤其是新一代AI,许多人都在讨论AI技术本身的瓶颈和问题,但忽略了AI生成式技术与人之间的关系。AI技术究竟以何种形式与我们的社会、人类、甚至更广泛地说,与我们的国家进行交互,我们的研究还非常少,因为这不仅涉及技术问题,还涉及包括对模型的信任、安全问题等复杂交互形态。
因此,如果我们以史为鉴,吸取上一波互联网泡沫中的问题,现在最好的行动初衷或方法应该是思考技术和人本身需求的关系,以及与社会的交互应该是怎样的形态,而不仅仅是建设了一条漂亮的高速公路,却没有车辆来往。
关于这个问题,高盛的报告给出了一个相对谨慎的判断:由于大模型的能力限制,它们可能替代的主要是一些相对低薪的工作岗位。然而,我们最近也在思考,上一波AI热潮中,大模型对人类的替代作用不仅限于简单工作。以AlphaGo为例,它不仅横空出世,还击败了人类最伟大的围棋棋手,这在生成式AI领域尚未见到同样惊人的情况。但在特定领域,我们已经看到了大模型的潜力,比如谷歌的DeepMind使用其大型模型在数学竞赛中取得了相当于铜奖的成绩。
这种情况下,我想引用当时人们对AlphaGo的看法:自从AlphaGo战胜了人类顶尖棋手后,人与AI的关系已经从单一的对抗转变为一种亦敌亦友的复杂状态。在很多情况下,人类顶尖棋手实际上需要向AI学习,AI也改变了围棋的整体竞争格局。
过去,许多人学习围棋是依照传统的棋谱和对棋局的理解来进行的。但在AI领域,我们是否可以探索一种新的可能性,即AI与我们的关系不仅仅是竞争或替代,而是成为一种亦师亦友的伙伴关系。在这种关系中,AI能够教给我们一些东西,同时我们也能教给AI一些东西,这应该是理想中AI与人类互动的形态。
alphago击败韩国棋手李世石。图/cfp
大模型如要进化到人脑级别,需要扩大100倍甚至10000倍
我们观察大模型,会觉得它并不像人类,但最终目标其实是希望它能够更接近人类。这种趋势在全球范围内都有所体现,比如美国的公司Anthropic,它的名字就体现了人类学的概念。
我们为什么会朝着这个方向发展呢?原因在于,人类本身在本质上也是一个概率模型。这听起来可能有点神学色彩,但实际上是有理论依据的。我们的大脑思考过程,大部分并非量子过程,而是可以通过神经元介质的传递来解释的,尽管其复杂程度远远超过我们现在最先进的大模型。
我们面临的一个未知问题是,我们需要多大的大脑容量才能实现这样的智能。这个容量可能远远超出我们对大模型的所有想象,可能需要将现有的模型规模扩大100倍甚至10000倍才能达到这样的水平。因为大模型与小模型最大的区别在于,我们曾经不认为小模型具备规划、推理和交互的能力。在过去,我们使用聊天机器人时,并不愿意与它们进行深入交流。但是,当模型的规模在我们原有认知范围内扩大10000倍时,一些新的能力就会涌现出来。
因此,我对这个行业最抱有期待的一点就是,既然从小模型到大模型可以发生涌现现象,那么如果我们将规模进一步扩大,并结合其他更先进的技术,这将是一个呈指数级增长的过程。这种变化可能会带来我们难以预料的突破和创新。
当前的主流观点认为,下一代AI技术的核心将是基于强化学习和自博弈的大模型。这种技术体系的主要推动者包括美国的谷歌、DeepMind以及OpenAI等公司。我们已听说过许多相关的计划,例如OpenAI的“草莓计划”和“Store very计划”,以及DeepMind的“Germany”自博弈技术。此外,Anthropic等公司也在积极招募前OpenAI的高级研究员,共同推进这一领域的研究。这些努力本质上代表了技术探索的新方向。
虽然我们无法确定这些尝试是否能够成功,但从AI技术发展的历程来看,它们代表了不同AI流派与生成式模型的融合与创新。这是一个雄心勃勃的过程,因为它涉及到大模型自我迭代的能力,这可能会使推理成本增加约100倍。这是一个巨大的挑战,即使将全球所有的AI计算资源集中起来,也可能难以满足这样的需求。
说到生成式AI的iPhone时刻,其实很多创新技术在iPhone之前就已经存在。例如,触摸屏技术和智能手机的雏形在iPhone问世前就已有相关概念。iPhone之所以成为iPhone时刻,更多的是因为它在应用领域内集大成,将许多有用技术进行了合理整合,达到了一个突破的临界点。
如果我们将这个比喻应用到大型语言模型上,就会发现这些技术之前大部分都不是完全不为人知的。我们尚未到达那个转折点,让技术爆发。因此,我们一直在预测,何时会迎来大型模型自己的AI时刻?这个问题的答案在很大程度上取决于我们是否像iPhone时刻那样,已经集齐了所需的“七颗龙珠”。每个领域、每个行业的进度都不尽相同。例如,我们之前提到的会议领域可能已经接近完成,而某些生产或自动化领域的项目可能还远远没有开始。
AI无疑是当前技术领域中最耀眼的明珠,但这个皇冠上还有很多值得我们期待的领域。以中国为例,作为一个制造业大国,我们未来将面临人口老龄化和劳动力短缺的问题。因此,这波AI浪潮不仅推动了生成式AI的发展,也带动了所谓的聚生智能领域,即将生成式AI的规划和对世界的理解能力与现有的机器人技术相结合。这是一个非常广阔的市场。目前,在生产环节中,我们仍然需要大量的熟练工人,这些工人实际上充当了数据生产者的角色。在AI的视角中,AI在某些场景中进展缓慢,归根结底还是因为对应领域的数据不足。
这种数据的收集如果仅通过文本形式进行,效率相对较低。我们必须找到一种更快速的方法与现实世界进行交互。这是我观察到的一个令人兴奋的领域。除此之外,生成式AI的发展也激发了新一代研究者的创造力,他们的想法千奇百怪,算法背景也各不相同。许多人甚至拥有哲学背景,他们采用独特的方法来解决AI问题,例如使用符号科学的方式。在未来,这些研究者中可能会有人异军突起,成为推动AI未来发展的中坚力量。
【来源:九派新闻】
生成式AI幻觉问题难解决是因为它涉及复杂的深度学习机制,但也不能忽视数据集的影响。想要彻底解决这个问题,或许需要更深入地研究数据集的结构和质量。