2022年12月22-23日,2022T-EDGE全球创新大会暨钛媒体十年致敬盛典在中国北京举办,本次大会主题为“十年致敬·生态重塑”,邀请全球创新领袖一起复盘过去十年产业变革的跌宕起伏,展望下一个十年经济发展的核心动能。
12月22日,美国国家工程院外籍院士、北京智源人工智能研究院理事张宏江在钛媒体2022T-EDGE大会上发表了《ChatGPT和AIGC爆火背后,Al 大模型的发展和机遇》的主题演讲。
张宏江在演讲中表示,ChatGPT和AIGC(生成式人工智能)技术爆火背后,代表着人工智能(AI)大模型进入一个新的技术范式,同时也是第三波 AI 浪潮经过十几年发展之后一个非常重要的拐点。
据悉,早在1956年夏天,计算机科学家约翰·麦卡锡(John McCarthy)等人在具有传奇色彩的“达特茅斯会议”上创造“人工智能”这个术语,被认为标志着 AI 的正式诞生。在之后半个世纪当中,计算机技术飞速进步,AI 也影响着全世界的技术变革与发展。
全球共经历了三次 AI 浪潮。相对于前两次浪潮由于数据量不够、算法不强、商业化不如预期等因素,让所有人期盼的十年“AI 效应”看法泡沫破灭。如今第三次 AI 浪潮,AI 算法、算力、数据“三驾马车”同步突破,尤其是如今的 AI 大模型带来的发展机会和机遇。
此次演讲中,张宏江围绕基于GPT-3技术的ChatGPT、AIGC的前沿趋势、技术应用,从而详细阐述 AI 大模型的产业发展机会与机遇。
首先,OpenAI 开发的GPT-3技术,基于Transformer预训练语言模型架构、深度学习网络架构发展进步,向我们展示了从算法到工程上的一系列突破,是工程化能力的典型代表。
从对话式文本问答平台ChatGPT模型来看,基于WebGPT和InstructGPT的技术研究突破,ChatGPT让我们对于人机对话有了一个完全性理解,既能作文,又能考试,还能写程序,而且能够拥有持续对话的能力。
从 AIGC 技术来看,从OpenAI 2021年1月发布的DALL·E 1.0开始,按照一段文字、个人风格,通过 AI 大模型生成图像的方法风靡全球,代表了当前文图生成的最新算法,实现了 AI 技术的新突破。最近几个月出现的Stable Diffusion是目前最好的技术。
在国内,北京智源人工智能研究院于今年11月开发了AltDiffusion,以及开源文生图系统FlagStudio等,将生成式模型进行了本地化,以及用文字+图片形式产生新图片的创新方案,从而实现技术进步。
“它其实代表着从以前‘大炼模型’(各自研发专用小模型),到‘炼大模型’(研发超大规模通用智能模型)的一个范式转变。这个转变有很重要的意义:通过这种比较先进的算法架构,尽量整个可能多的数据,汇集大量算力,集约化的训练达模式,从而供大量用户使用。”张宏江表示,大模型的发展很可能会改变信息产业的格局,改变以前作坊式 AI 开发模式,把 AI 应用带入基于互联网、云计算的大规模智能云阶段。
张宏江在总结中称,尽管过去几年 AI 技术行业碰到了一些技术瓶颈和商业化难题,但这种状况会随着大模型的发展和普及,尤其是通过大模型+微调的新技术开发范式,将能够使人工智能的能力,更好、更有效的应用到各个场景里面,从而大大降低开发成本。
张宏江强调,由于ChatGPT、AIGC等AI大模型技术不断成熟,未来会带来新的创业机会,包括更好的对话机器人、更好的机器翻译,更好的创作平台。
“大模型是一个快速发展、快速引爆市场的机会型技术,将会带来新一波创业热潮,无论是我们今天已经看到的应用,还是未来会看到的应用,都将会有非常大的潜力。”张宏江在演讲的最后这样表示。
以下为张宏江演讲实录,略经钛媒体App编辑:
各位嘉宾,各位钛媒体的朋友,大家早上好。我是智源人工智能研究院理事长 张宏江。
最近,大模型开始从学术界“烧”到了产业界,现在又“烧”到了大众媒体,尤其是人工智能生成模型(AIGC)的热度还没有褪去,然后ChatGPT的热又一波接着一波。
那么,最近人工智能到底发生了什么大的变化?这背后的原因是什么?这些技术能够用来做什么?又将为我们的生活和工作带来什么?为中国的产业带来什么?我在这里结合智源人工智能研究院的一些工作,和大家分享一下我的理解和看法,尤其是针对ChatGPT和AIGC带来 AI 大模型的发展机会和机遇。
过去这两年,技术大模型已经成为人工智能快速发展的关键技术,各大企业和高校、各个研究机构在这个领域上都进行了布局和发力,各个领域的模型层出不穷。所以,大模型的研究和应用也将会逐步成为人工智能发展的一个关键方向,从而形成了新一波人工智能浪潮。尤其在应用领域,我相信会形成一个非常持久的浪潮。
自GPT-3于2020年5月份发布开始,智源“悟道”在不到一年后的2021年6月发布,是当时世界上最大的1.7万亿模型。随后的一年多来,我们看到有更多的大模型研究出来。尤其是DALL·E模型和ChatGPT模型,来宣告“大模型”进入了一个新的高地。
从各个研究机构发布的技术模型数量来看,“大模型”数量在持续增加,而且模型规模也越来越大,这背后其实有它非常深远的技术和学术背景。
首先,从基础技术角度看预训练大模型的发展,回顾一下它的技术积累。
其实在15年前,深度学习逐步快速发展的时候,当时我们实际上处于一个探索的阶段,因为构建深度学习的主要方式就是监督学习,这中间需要大量的人工标注的数据。而数据的生产周期长,而且也非常昂贵。那么,如何能够通过有限的人工标注,在特定的任务上构建更有效的神经网络,或是自动产生大量的数据,这其实是我们一直在研究的问题。
随着深度学习技术发展,在大概七八年前,就出现了迁移学习技术,就是从过去学习的知识上不用再开始训练,如果用新的数据加上去之后,再将已经捕获的知识迁移到一个新的目标或新的应用上去。这两块是我们今天大模型非常重要的技术基础——传统的“监督学习”逐步变成“强化学习”。
另外,我们往往会忽略掉,人们认为,“大模型”的快速发展主要原因是学术发展比较快。但实际上,不止是学术发展,更重要的是“大模型”通过标注好的数据进行学习。这其实是过去几年非常大的变化。另两个很大的变化是:算法、算力的要求上。
所以我们说,深度学习主要有三个因素:数据、算法和算力。
算法的进展我就不多讲。但数据的进展在过去十几年里是非常快速的——从一个最开始的人工标注,到开放的数据集分享,再到数据自动标注和生成式研究。而技术进展到了最近五年,我们开始把数据变成了“云服务”,从而建立起了数据标注、处理、存储管理一体的云数据中心。这对于人工智能的发展具有非常重要的推动作用。
另外一方面,我们从一开始推动 AI 专用芯片,比如英伟达的GPU(图形处理器),到后来推动大规模分布式计算环境,再到我们今天已经有的大规模、高性能 AI 算力中心。这两块一个是数据,一个是专利,这中间是不可缺少的。而且,今天在整个过程中间,我们意识到另外一点,就是以前认为的基于深度学习的人工智能技术的基础研究,取得了一些算法的突破。
更重要的是,“大模型”到了现在这个阶段,工程化能力是非常重要的,尤其是GPT-3,向我们展示了从算法到工程上的一系列突破。
GPT-3大模型是(工程化能力)典型代表。从算法架构来看,它是建立在神经网络架构Transformer基础之上的。它克服了传统的神经网络技术用浅层的预训练网络来捕捉单词,并无法解决一词多义等问题缺陷,而是优化了类人脑的一个学习过程。它在学习过程中间关注于重点而非全部,从而使得它的学习效率非常高。
随着模型规模的变化,基于Transformer预训练语言模型架构——这种隐含的丰富语言知识,从而使得它能够在众多下游NLP任务中间有惊人的表现。在此之前,谷歌的BERT就是建立在Transformer基础上的,而OpenAI 的 GPT这一类模型也都是建立在这基础之上的。所以,Transformer是这里面(GPT-3)的核心所在,而且是近三年我们看到大模型发展最核心的深度学习架构。
那么,GPT-3的出现有几个里程碑式的意义:一是凸显了Transformer生成式模型的学习能力;二是1750亿模型规模非常大,其模型在小样本和0样本中的学习中间表现出了突出性能;三是GPT设计理念像语言学习(Language Learning)这种概念,也就是学习过程关注重点而非全部,有效利用数据进行核心学习,而非此前那种利用标注数据进行的深度学习过程。
事实上,今天GPT-3的学习过程的数据要求非常大,1750亿参数量,约有700G大小,一次训练成本大致花1200万美金。所以,大模型的发展不光是算法上的进步,在数据、算力上的要求也非常巨大。而大模型中有GPT-3这一类模型的话,核心优势是利用这种模型进行微调就可以用了,用来做一些新的任务,这是以前模型所不具备的。
接下来,我们看一下 GPT-3在语言能力上的突破。
无论是最早的英文GLUE Benchmark,还是后来的写作,它都有了非常好的突破。因为这种大模型里面隐含大量支持,对这些知识支持模型进行一些推理层面的任务,并得到了非常好的效果。比如,中文写一篇关于个性化搜索未来发展趋势的论文,或1801年的美国总统是谁等,它从中间学会后记忆,并用在未来场景里面。
另外,GPT-3在中文的文言文理解能力也让人惊叹。这段来自于孟子的文言文是北京市小升初的题目,而GPT-3能够非常好的理解它。
GPT-3发布之后,OpenAI 发布ChatGPT,简直就是让我们对于人机对话有了一个完全性理解。实际上,ChatGPT就是为对话而优化、在GPT-3基础上优化的一个大语言模型,它在写故事、写代码,甚至参加SAT考试,都比GPT-3有非常大的进步。值得注意的是,它在SAT试题的回答是练习10次之后的水平,最终在数学满分800分中达到600分,写作满分800分中拿到520分,相当了不起。
所以,马斯克惊呼ChatGPT好的吓人,他甚至预测危险的强 AI 离我们不远了。实际上,ChatGPT确实在对话方面达到了一个新的高端,完全可以以假乱真,至少是记忆和学习能力超强的“超级鹦鹉”。
那么,ChatGPT为什么能够有这样的能力?
我们知道,GPT-3已经是针对于语言的大模型。而OpenAI又在其基础上做了两个方向的研究:一是WebGPT,搭建基于文字的页面浏览环境,教GPT-3上网查询,再生成结果的同时生成引用来源,相对GPT-3大幅提升生成内容信息量和事实性;二是InstructGPT,基于用户反馈的强化学习RLHF,将语言模型的输出与用户的意图非常好的align(对齐/相关)起来。这是InstructGPT的核心所在。
ChatGPT恰恰是建立在InstructGPT基础之上的。之前深度学习,包括最早出现CNN/RNN到Transformer的框架,然后才出现GPT。回过来看,其实还是Transformer的出现,使我们今天在深度学习网络架构上有了新的突破。
ChatGPT既能作文,又能考试,还能写程序。它的核心特点在于其持续对话能力,能够记住历史信息和人的反馈,保持对话的一致性,容许用户提供后续更正。他会意识到而且会挑战你,做到了“知之为知之,不知为不知,是知也”,它也承认错误后进一步改进。而且其核心能力在于持续的迭代,大幅度提高用户意图理解和结果准确性,这就是InstructGPT特点与能力。
当然,ChatGPT也有一些局限性,可能产生不正确的信息,也可能产生一些有害指令或是偏见内容,而且它的训练数据大部分是2021年以前的,所以过去6个月发生的事情它了解很有限,我觉得这些其实很正常。
接着,我们来聊聊AIGC(生成式人工智能)模型——按照一段文字、个人风格来生成图像。
这一技术早在2021年1月(一年多),OpenAI 发布 DALL·E 1.0开始的,它核心就是不断学习文字和图像之间的匹配关系。自从DALL·E出现之后,又有一系列模型出现,最近几个月出现的Stable Diffusion是目前最好的技术。
智源研究院在这个基础上做了一些改善,于2022年11月公布中文模型AltDiffusion,效果比Stable的标准要更好。
无论是Stable,还是其他一些文字生成图像模型,原理都是通过图片离散编码,然后将图像的Token和文字的Token作为Transformer decoder进行输入,然后将大量图片与文字对上。而一开始,DALL·E产生的图像还是相对来说比较简单,那么在此基础上,Stable就把它的能力提高一大截。
需要提及的是,DALL·E是以皮克斯的WALL-E 和西班牙超现实主义画家萨尔瓦多·达利(Salvador Dalí)的名字命名。
下面,我用智源的多语言生成模型AltDiffusion,来说一下Stable Diffusion以及我们AltDiffusion最近的一些工作。
开源的Stable Diffusion近几个月出现之后,风靡了整个圈子,实际上代表了当前智能文图生成的最新算法。它用AItCLIP替换了Stable Diffusion中的文本塔,使得模型可以支持多种语言,并在多语言图文对数据集上进一步训练。
实际上,这个不是靠人来做,而是靠机器来做,本身说话是一个很重要的技术。原理上,我们AltDiffusion对它进行了一些改善,所以它对于中文的理解就会更好,比如把中文的画风也引进来。同时,它还支持除了中文以外的其他九种语言,包括法语、韩语、西班牙语、俄语、意大利语、阿拉伯语等。而且,不只有这些语料,很重要的是它在模型里面做了一些改善。
当然,它也有一些很有意思的现象,就是对于不同语言、同样内容的模型输入,会有很大差异,其实中间也反映出了文化差异。那么,我们的模型能够适应于这一点,本身也是一个很好的技术问题。
好,这里我给大家看一下智源研究院的开源文生图系统FlagStudio。你注意看界面的话,可以选择绘画风格,以及艺术家风格,根据某个艺术家来定义画风,比如这块选择的是虚拟引擎,画出来虚幻图片,用文字来描述你想要什么解答。另外就是用一个文字离开描述,比如一篮子苹果它给你生成一个苹果,如果描述改成梨就是能生成对应风格,产生新的图像。而且,不光是用文字来产生图片,而且用文字+图片形式可以产生新的图片,这是该模型能够做的、也是现在生成式模型的一个很大进步。
团队用我的照片来做实验,然后做了一个开源的系统,通过我不同时期的6幅照片,根据不同风格要求,产生新的图像,风格也多变,有的就比较年轻帅气,有的就形象老态等。
我在前面很快介绍了大模型的发展,尤其是ChatGPT和AIGC技术的发展和其具备的能力。那么,下面我花几分钟时间来谈一下这些大模型,对于产业的影响在哪里?
实际上,大模型代表了一个新的技术范式。我们可以做个比喻,它其实代表着从以前“大炼模型”(各自研发专用小模型),到“炼大模型”(研发超大规模通用智能模型)的一个转变。这个转变有很重要的意义:通过这种比较先进的算法架构,尽量整个可能多的数据,汇集大量算力,集约化的训练达模式,从而供大量用户使用。
所以,大家可以注意到,着从某种意义上来说,它是从小农经济到大规模生产的一个很重要的变化,就像当初电网的变革一样,此前自己发电,而今天要用 AI,就不需要再做模型了,而是用已有的大模型,以一种服务方式提供给用户。这很可能会改变信息产业的格局,改变以前作坊式 AI 开发模式,把 AI 应用带入基于互联网、云计算的大规模智能云阶段。
那么,它的重要性、优势在哪儿?我认为是有技术和产业的双重优势。很重要的一点在于,通过微调方式把大模型能力,能够有效转移到各种不同的应用场景中间,不再需要自己重新从0开始做模型,从而大大降低开发成本,使得它的应用会变得更加迅速、更加有效。
最近,IDC的一篇报告曾指出,超大模型将是快速引爆市场机会型的技术,这点我完全同意。
实际上,大模型是人工智能这一波浪潮,经过十几年发展之后的一个非常重要的拐点。下面我结合自己的体会,分享一下我对这个产业影响的一些看法。
从应用场景上来看,文本生成或是图文生成的模型,会很快应用到各种各样的场景(应用)中间。今天我们已经看到了刚才演示的文生图几个场景。其实大家可以想象,那么它可以用来做一系列应用,更不用说写GPT-3、ChatGPT的写作能力、问答能力等。
我相信,由于这些(DALL·E、ChatGPT等)大模型技术本身不断成熟,会带来新的创业机会,包括更好的对话机器人、更好的机器翻译,更好的创作平台。
另外一方面,这些大模型会带来一些 AI 基础设施创业的可能性,包括垂直性训练、大模型运营管理训练等。在美国有一家公司发展比较快,叫做Hugging Face,专门做大模型的训练和推广,尤其是一些开源的推广。
在应用方面的话,其实中国发展速度也很快。虽然目前发展状况是国外的头部企业引领技术和商业应用,国内可能会落后两年,但是,中国的落地能力非常强。
不过比较悲催的是,实际上,从学术技术研究方面看,OpenAI 公司在过去三年独领风骚,无论是从GPT-1、GPT-2、GPT-3,尤其是GPT-3和ChatGPT出来之后,从研究角度来说它搭好了框架,占据了第一位置。虽然其他人这两年做了很多模型,但从学术角度来看,其实我们都是在给它“补漏”。也就是说,在给它打工。
那么从学术角度来说,这其实要呼唤中国的学术原创性、学术创新能力。
但是从应用角度来看,文本生成、图像生成、音频生成、视频生成、虚拟人、元宇宙等场景,只要国外有的公司,中国都有比它更多的公司。而且我相信,中国的落地能力、应用场景一定会比他们走的更快。
此外,我们除了讲的ChatGPT和 AIGC生成模型之外,其实大模型还有更多质变潜力,尤其是我们今天看到,包括大模型在内的人工智能技术,在生命科学、材料科学、能源科学和环境健康等方面,都可以利用大模型来生成、驱动新的研究发现。尤其在 AI 制药、材料设计等领域,AI都有非常好的前景,而且已经开始落地。
最后,总结一下,我们认为,大模型实际上是 AI 第三波浪潮的一个拐点。
相比之前第一波和第二波浪潮,如今第三波浪潮,就是以深度学习、神经网络为代表的大概15年前开始的浪潮。
那么其实,过去几年,这一波浪潮已经碰到了一些技术瓶颈和商业化难题,使得我们 AI 企业的商业化非常不顺,高估值泡沫逐渐破裂,而且一些上市公司的技术找不到核心应用,或者说在核心应用上无法进行突破,那么从而使得它的 AI 技术赋能和增值情况都很有限。
但如今,这种状况会随着大模型的发展和普及,尤其是通过大模型+微调的新技术开发范式,将能够使人工智能的能力,更好、更有效的应用到各个场景里面去,而不需要每家企业/机构都要开发自己的模型,从而大大降低了开发成本。
所以,大模型是一个快速发展、快速引爆市场的机会型技术,将会带来新一波创业热潮,无论是我们今天已经看到的应用,还是未来会看到的应用,都将会有非常大的潜力。
好,谢谢大家。今天讲到这儿。(本文首发钛媒体App)
钛媒体作者 林志佳