隋唐演义

隋唐演义

复杂适应系统视角下的 ChatGPT 与 AI 大模型

双十一 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】


导语

ChatGPT 等 AI 大模型展现出了各种自然与人工复杂适应系统的普遍特征,例如涌现性(Emergence)、规模法则(Scaling Law)、临界相变、多尺度、层级等。那么,近期火热的 AI 大模型是否与从 90 年代发展起来的复杂适应系统理论(Theory of Complex Adapti【【微信】】,简称 CAS)有着深刻联系呢?

本讲座将会引领你从复杂适应系统的视角重新解读 ChatGPT,列举复杂科学相关理论和方法可能如何帮助人们理解神经网络以及 AI 大模型,内容涉及:从动力系统看待神经网络、从适应系统视角看待梯度反传算法、从图灵机角度看待自注意力与上下文学习(in-Context learning)、从相变与临界性的角度看待 few-shot learning 及思维链等。最后,讲座也就未来 AI 大模型如何帮助人们更好地理解复杂系统的普适性原理展开讨论。

集智俱乐部的" 后 ChatGPT" 读书会由北师大教授、集智俱乐部创始人张江老师联合肖达、李嫣然、崔鹏、侯月源、钟翰廷、卢D等多位老师共同发起,旨在系统性地梳理 ChatGPT 技术,并发现其弱点与短板。同时,结合集智俱乐部常年来积累的各种人工智能技术讨论,展望后 GPT 时代的人工智能都有哪些可能性?读书会自 2023 年 3 月 3 日开始,每周五晚上 19:00-21:00 举办,持续时间预计 6 周,欢迎对本话题感兴趣的朋友报名参加!

与读书会整体主题之间的关系

从复杂适应系统理论的视角重新解读以 ChatGPT 为代表的 AI 大模型

主要涉及到的知识概念

复杂适应系统(Complex Adapti【【微信】】, CAS)

规模法则(Scaling Laws)

动力系统(Dynamical Systems)

Transformer

梯度反传(Gradient Backpropagation)

语言模型(Language Model)

图灵机(Turing Machine)

相变与临界性(Phase Transition and Criticality)

分享简介

ChatGPT 等 AI 大模型展现出了各种自然与人工复杂适应系统的普遍特征,例如涌现性(Emergence)、规模法则(Scaling Law)、临界相变、多尺度、层级等。那么,近期火热的 AI 大模型是否与从 90 年代发展起来的复杂适应系统理论(Theory of Complex Adapti【【微信】】,简称 CAS)有着深刻联系呢?

本讲座将会引领你从复杂适应系统的视角重新解读 ChatGPT,列举复杂科学相关理论和方法可能如何帮助人们理解神经网络以及 AI 大模型,内容涉及:从动力系统看待神经网络、从适应系统视角看待梯度反传算法、从图灵机角度看待自注意力与上下文学习(in-Context learning)、从相变与临界性的角度看待 few-shot learning 及思维链等。最后,讲座也就未来 AI 大模型如何帮助人们更好地理解复杂系统的普适性原理展开讨论。

分享大纲

什么是复杂适应系统(CAS)?

复杂系统与复杂科学

复杂适应系统

为什么说 AI 大模型是复杂适应系统?

大语言模型的涌现能力

类比、上下文学习与思维链

大语言模型的规模法则

从 CAS 的视角理解 ChatGPT

复杂视角下的神经网络与机器学习

神经网络与动力系统

从 Holland 的分类器系统到误差反传算法

图灵机与自注意力机制

上下文学习的可能机理

从相变与临界到大模型的涌现

为什么说 AI 大模型可能助力复杂系统研究?

复杂系统自动建模

AI 可解释性问题

通用大模型与通用原理

主讲人

张江,北京师范大学系统科学学院教授,集智俱乐部、集智学园、集智科学研究中心的创始人,曾任腾讯研究院、华为战略研究院等特聘顾问。主要研究领域包括复杂系统分析与建模、规模理论、机器学习等。

集智斑图个人主页:【【网址】】/user/9

直播信息

时间:

2022 年 3 月 10 日(周五) 晚上 19:00-21:00

参与方式:

扫码参与读书会,加入群聊获取本系列读书会的视频回放权限、资料权限,与社区的一线科研工作者和企业实践者沟通交流。

" 后 ChatGPT" 读书会启动

集智俱乐部的" 后 ChatGPT" 读书会由北师大教授、集智俱乐部创始人张江老师联合肖达、李嫣然、崔鹏、侯月源、钟翰廷、卢D等多位老师共同发起,旨在系统性地梳理 ChatGPT 技术,并发现其弱点与短板。同时,结合集智俱乐部常年来积累的各种人工智能技术讨论,展望后 GPT 时代的人工智能都有哪些可能性?读书会自 2023 年 3 月 3 日开始,每周五晚上举办,持续时间预计 6 周,欢迎对本话题感兴趣的朋友报名参加!

详情请见:

" 后 ChatGPT" 读书会启动:从通用人工智能到意识机器

集智学园最新 AI 课程推荐,

张江教授亲授

理解人类语言、创作艺术品、下围棋、蛋白质结构预测、新质子模型的发现、辅助数学定理证明,所有这些不同领域的难题都正在被新兴人工智能技术逐一攻破。人工智能, 特别是以大数据、机器学习、神经网络等技术为主体的智能技术,近年来获得了迅猛的发展,它正在与各个学科发生交叉、融合,逐渐演化为一种解决各种复杂系统问题的跨学科方论,成为支撑复杂系统分析与建模的重要新兴技术。

本课程面向具有一定理工科背景和编程技术基础的学生,全面介绍基于大数据技术驱动为主的人工智能技术的最新进展,包括但不限于:神经网络、深度学习、强化学习、因果推断、生成模型、语言模型、面向科学发现的 AI 等前沿领域。希望学员能够在本课程的学习过程中了解数据驱动的人工智能最新方法、技术和前沿发展情况,同时通过一定的课程项目实践,能够具备利用人工智能解决复杂问题的实操、编程能力。

课程时间:课程目前已上线到第 2 课。从 2023 年 3 月 -6 月,每周二中午 12:00 更新课程。法定节假日除外。

【【网址】】/course/5084?from=wechat

复杂系统入门与实战

地址 【【网址】】/course/4577?from=wechat

推荐理由:一门带你学习科学家用来理解复杂系统的思想、工具、方法等的课程,包括涌现、混沌、群体行为、ABM、分形、动力学、人工生命、生命起源等。

图灵机

【【网址】】/course/1155?from=wechat

推荐理由:带你详细了解图灵机的定义、图灵机的计算、图灵机框架的模拟、通用图灵机、以及图灵停机问题,说明算法的上界。


复旦团队发布国内首个类 ChatGPT 模型 MOSS,将为国内大语言模型的探索和应用带来哪些影响?

复旦团队发布首个类ChatGPT模型,复旦团队发布招聘信息,复旦18人,复旦 驴

【【微信】】发布以来,基于指令学习技术的类【【微信】】模型在我国能否开发成功,成为业界关注的一个焦点。今天,解放日报・上观新闻记者从复旦大学自然语言处理实验室获悉,国内第一个对话式大型语言模型MOSS已由邱锡鹏教授团队发布至公开平台(),邀公众参与内测。

MOSS可执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。这条路径的走通,为国内学术界和产业界提供了重要经验,将助力大语言模型的进一步探索和应用。

邱锡鹏表示:“尽管MOSS还有很大改善空间,但它的问世证明了在开发类【【微信】】产品的路上,国内科研团队有能力克服技术上的重要挑战。”MOSS研发项目得到了上海人工智能实验室的有力支持。后期,这项工作将通过开源方式和业界社区分享。

复旦团队发布国内首个类【【微信】】模型MOSS,邀公众参与内测_解放网,上观新闻

上观新闻2月20日从复旦大学自然语言处理实验室获悉,国内第一个对话式大型语言模型MOSS已由邱锡鹏教授团队发布至公开平台(),邀公众参与内测。当晚,社交媒体上出现截图,显示该平台“服务器流量过载,请明天上午重试”。随后,该平台官网发布一则说明,解释称“计算资源不足以支持如此大的访问量”,“给大家造成非常不好的体验和第一印象”,并致以真诚的歉意。

复旦MOSS团队回应体验“非常不好”:距离【【微信】】还有很长的路_未来2%_澎湃新闻-The Paper复旦 MOSS 团队回应体验非常不好,称距离 【【微信】】 还有很长的路,其发展还需克服哪些难题?
我们从未觉得自己与通用人工智能如此接近,这是我做人工智能这么多年以来最兴奋的一个时期。AI可能会像工业革命和信息革命一样,引领我们走向下一个时代。

我们WOMEN:走在前线|复旦科创先锋论坛演讲实录

「迈向大规模语言模型」

非常高兴来到复旦管院和在座各位青年科创精英、管理精英共同探讨先进的科学技术和管理理念,这是我感到非常荣幸的一件事情,尤其是在妇女节这一周,作为从事人工智能的女性,感到既快乐,又感到身上的担子非常重。

我报告的题目是“迈向大规模语言模型”。我会花一些精力跟大家讲讲什么是大规模语言模型,托【【微信】】的福,这个概念已经深入人心。

在讲大规模之前,我们先了解什么叫做语言模型。语言模型就是语言的规律。

首先是语法。我们无论学习汉语还是英语等语言,都是从语法开始学起,但是光有语法,我们依然很难捕捉客观世界纷繁复杂的语言现象,因为语言并不会严格按照语法去表达。这个时候,我们就需要使用到数学“武器”――概率,在各种语言现象中间去寻找规律。举个例子,比如“The cat sat on the mat”和“The cat sad on the mat”,假设语音识别任务需要根据读音判断是“sat”还是“sad”,如果通过对句子进行概率分析,我们就能知道什么是正确的识别结果。这个概率模型就称为语言模型。

语言模型有一个问题:概率模型是有窗口的,当你的窗口越来越大,你所需要的计算量开销就更大。由于句子在诸多情景下可能包含巨大的词汇量,导致传统概率语言模型所需的计算资源爆炸式增长。所谓大规模语言模型就是含有巨量参数,能够接受很长一段时间窗口的语言文字。

2017年出现了一个模型叫做Transformer这是现在预训练模型的基石,也是大规模语言模型的基石。传统的预训练模型有两种思路,一种是以BERT为例的理解式模型,另一种是以【【微信】】的前身GPT为代表的产生式模型。当然也有一些工作尝试把理解式模型和产生式模型结合起来。曾经很长一段时间,理解式的模型被使用得比较多,而产生式模型则需要更高的算力和更长的窗口,一直到有了GPT-3之后,大家才知道它如此之强悍。现在的【【微信】】,还拥有了很强的理解人类上下文的能力。

我们生活在一个飞速变化的时代,几乎每个星期都有新的模型发布,预训练+微调的方式是前【【微信】】时代的范式,诸如Google、Open AI这样的大厂商将自身开发的大模型开源,供下游应用者在这些模型上进行参数的微调,以取得优异的表现。举个例子:电影影评有正面和负面的,我们要进行分类,仅仅用原来的GPT和BERT效果是不够的,需要人工标注一批任务相关的数据,对模型进行微调。过去大概三年的时间,这种预训练+微调的范式就是自然语言处理的主要范式。

预训练+微调范式带来了自然语言处理的新时代,对上游和下游都带来深远影响。上游是厂商制造出来越来越强大的模型,模型的参数规模以指数的规模增长;下游则是将预训练的大模型合理应用到各种任务上。过去两年有一个非常时髦的概念叫做“小样本学习”或者“少样本学习”,刚才我们说过,如果要完成某一个任务,可能需要人工标注大量的数据,但在少样本场景之下,只需要一两条数据,大规模语言模型就能够给出相当不错的性能。

不过,当语言模型变得更大的时候,一方面,厂商出于商业原因逐渐舍弃开源,OPen AI没有开放过GPT3模型,只开放API接口,你可以调用,但是拿不到内部细节,今年新出来的【【微信】】连论文都没发表 ,只能靠大家去猜测;另一方面,用户也缺乏足够的计算资源使用大模型,所以我们非常期待国产芯片,能够让我们拥有更多的算力去运行大规模语言模型。

这样的情况之下,我们有了一个新的范式,就是要利用大规模语言模型的涌现能力。所谓的涌现能力是什么?当模型的参数规模还不太大的时候,你看不到它的强大,当达到某一个临界值时,这个模型就会非常强大,目前我们认为这个参数规模的临界值可能是650亿。

早期的GPT-3还不太理解用户的需求,但最近不论是【【微信】】还是我们实验室开发的MOSS,都拥有了比较强的写代码能力。

我们发现代码是非常好的数据,因为代码有逻辑性,是结构化的,还带有注释和文档,我们可以进行语义方面的对齐。至于什么数据是最好的数据,我认为纸制的媒体、书、报纸是最好的,大家看【【微信】】说的话,是很漂亮很流畅的语言文字,如果我们用论坛、微博等平台上的文字训练它,它说的内容可能就不是那么优美了,这一点很有趣。

GPT-3发布于2020年,只公开了API,人们只能通过接口使用,并授权了很多公司在上面开发小业务。通过这个过程,它搜集了大量的用户行为,知道哪些需求是用户感兴趣的,哪些任务是用户关心的,基于人类的反馈,来训练语言模型,了解人类的价值观。

训练大模型的开销非常之大,需要大量的算力,中小公司会感到负担很重,根本无法简单地进行这样的语言模型训练。于是我们可以尝试把语言模型做成一个服务,你跟它进行交流,它给你反馈结果。我们还可以通过无梯度优化的方法写出更加高质量的提示或者指令,让它更大程度展现它的能力。

在语言模型服务方面,我们从两个方面开展工作,首先我们要去开发模型基座,在过去几年,我们开发了亿级规模、十亿规模到百亿规模的参数,目前跟GPT-3相比,我们大概差一个数量级。此外,我们还研究怎样利用语言模型的能力对它进行调优,让它实现各种各样的任务。

接着我们来看一下自然语言处理的七种范式:分类、匹配、序列标注、机器阅读理解、Seq2Seq、【【微信】】(序列到动作序列)和掩码语言模型范式。这些也是这几年自然语言处理的范式迁移。

【【微信】】最强大的能力就是它的多用户的能力,它能够处理各种各样的任务,你不需要事先教它,它就已经掌握了。实际上【【微信】】已经通过与人类的交流,比如通过标注了一万多条用户数据,人工写了很多很好的高质量答案,它再用这些答案训练,知道了人类的需求。

现在我们有许许多多的公司,每个公司做一件任务,并把这个任务做到极致,就能够占领一个细分领域。未来自然语言处理将与现在不同。“七种武器”的时代,我们有各种各样的范式,分类范式、匹配范式、序列到序列、语言模型的范式,一个模型就可以打天下。

我们来看一下统一的模型基座。统一模型基座,即可以用一种武器、一个方法统一所有的任务,这是我们在2021年的工作,这个工作早于【【微信】】的出现。但是我们没有做几千种任务,我们做了两类任务。第一类任务是情感分析,有七个小类。我们提出用生成式的框架,通过把一个任务转为语言模型能生成的输出形式,这样的话我们只要少量的任务数据就可以训练出一个语言模型。我们这个模型用的基座是BART,如果我们用了更强悍的基座,可以把需要的样例减到更少。

BERT针对的是自然语言的理解,GPT是自然语言的生成。既然构造大模型的初衷是为了合众归一,那么能不能将它们汇总到一起?我们在2021年提出一个新的语言模型叫做CPT,将理解任务和生成任务合并到一起。CPT是一个非对称的Transformer模型结构。该结构由一个Encoder(任务间共用)和两个Decoder(一个面向理解,一个面向生成)组成,既具备理解的能力又具备生成的能力。

我们从去年年底开始训练MOSS,是在CPT的基础之上训的,我们给它用了更多的算力和数据,训练了两个月,然后出来了目前这样一个版本。

下面谈一下高效调优算法。

在【【微信】】时代,该怎么样使用语言模型?我们有几个思路。

第一个思路叫做Text prompt(文本提示),通过人工设计一些基于文本的指令,激活大模型面向特定下游任务的能力。但是手工设计偏向于特征工程问题,需要工程师依据既往经验不断调试,十分耗费精力。

第二个思路是In-context learning(情景学习),在GPT模型上展现了良好的表现,这种手段开辟了一个极具前景的方向,值得学界和工业界继续共同研究。

第三个思路是Data generation(数据生成),不同于直接使用大模型,这种手段是使用大模型生成一定量的数据,再利用生成的数据训练一个小体量的模型,以追求在小样本场景下的应用效果。

第四个思路是Feature-based-learning(特征学习),把预训练模型的输出作为一种Feature,并结合标签,输入给一些特定的模型,使参数由标签空间向特征空间靠拢,极大地减轻了端侧优化的负担。

我们提出标签调优方法,这属于特征学习范畴。这个标签调优的想法是这样的,我们在做机器学习的时候一般是先有一个特征空间,比如说情感分析:褒义词和贬义词,分词则可以用上姓氏、称谓等等特征。以前的做法就是在标签空间去做微调,但是我们发现还可以反而求之,冻结参数,然后让标签向参数空间去调整,将来就可以用统一生成式的框架解决问题,比如分类时,可以直接让它生成类别的标签。

还有就是Black-box optimization(黑箱优化),让用户根据推理API的返回结果,使用基于搜索的无梯度优化方法自己优化指令。

并不是所有的人、所有的公司、所有的学校都可以去训练【【微信】】这样的模型。

用户怎么样能够让【【微信】】等大模型返回更加符合我们个性化需求的结果?我们想了一个很巧妙的方法,在用户指令上面加一段,比如说实数的向量表示,把它送到大模型【【微信】】,返回一个结果,可以计算出来现在这个模型是不是能够满足我们的需求,然后我们可以去调整指示。因为我们增加的一小段向量可以修改,经过修改让它做一些自适应的调整,得到更好的结果。

接下来简单看一下我们对【【微信】】做的一些分析。我们对它已经有一些很直觉的认识,比如能够写作文,能够写案件的判决,能够写发言稿。它的能力边界在哪里?

首先是我们所说的情景学习,给它加例子,它会返回跟例子相似的答案。【【微信】】用了很多代码进行训练,如果大家在跟它交流的时候,让它做数学题,而不是直接给例子,直接把这个过程用数学公式写出来,或者用程序代码编出来,它就会做得非常好。

【【微信】】还有一个跟人类反馈对齐的过程。它找了很多专家,对一万多个问题写了很多答案,用这样的任务数据提升它的模型性能;然后强化学习,用它的模型随机生成若干个答案,让许多人标注,从而学习人类的价值取向,再用这个价值取向修改模型,用新的模型重新再去提升它的性能,最后和人类需求越来越对齐。

【【微信】】曾经参加谷歌的招聘面试,拿到L3级入门工程师的offer。除了写代码,我们也让【【微信】】做做中国的高考题。

2022年高考历史全国甲卷的第一题,需要分析给定文本“天下太和,百姓无事”最接近的政治理念。【【微信】】分析认为根据题干信息,这一思想最接近老子“无为而治”的道家思想,因此选B,给出的答案也是正确的。我们在客观题上对【【微信】】进行了测试,【【微信】】的水平基本相当于500分左右的高考生。我们发现【【微信】】更擅长文科,在历史、地理、政治上取得了不错的成绩,而生物、化学、物理等理科学科上表现不佳,尤其在物理上。

我们实验室3月2号发了一个针对【【微信】】的测试报告。我们对【【微信】】各种各样的模型基座进行了几十万次测试,我们自动写了很多命令,挑出来比较好的指令。如果指令写得不好的话,它的性能就没有那么高,但是我们总要把它最强大的性能抽出来,这就需要好的指令。

任务之一是机器阅读理解。我们发现,在阅读理解任务上,【【微信】】已经比现在最好的方法都强,尤其它可以不需要例子,而过去要花很多时间来调优。我跟实验室的同事们说,以后我们就不做阅读理解的任务了,因为你做不到【【微信】】的水平,就没有什么价值了。

而关系提取任务,要从一篇文章中间提取出来实体,比如说“比尔盖茨创办了微软”,【【微信】】的提取性能还不太好。

以后我们应该怎么样跟【【微信】】错位竞争?它做得好的事情可能就不再是我们的重点,它做得不好的,我们还可以进一步改进。

我们发现,【【微信】】的强大性能都是在现有的机器学习框架下可以解释的,并没有一些很玄的东西。我相信除了OpenAI,会有很多机构,包括大学和企业在类【【微信】】模型方面会有大的突破。

我们把【【微信】】这些认为是人工智能的基座,就像大脑一样,当你给它加输入,它可以读,给它加输出,它可以说,我们甚至可以给它加上手机、机器人,让它具有各种硬件外围。

我们从未觉得自己与通用人工智能如此接近,这是我做人工智能这么多年以来最兴奋的一个时期。我以前一直觉得它在我可以预见的将来是看不到的,但是现在我觉得可能不是那么遥远了。

在肉眼可见的未来,善用AI的人将和不用AI的人在工作效率上会产生巨大差距,因此我鼓励大家多去使用和熟悉,与AI进行沟通。在未来一段时间内,【【微信】】还不足以完全替代某一个岗位,但将大大促进各个领域的生产效率。我们希望AI是帮助人类的工具,而不是取代人类的机器。

最后以微软CEO萨提亚・纳德拉(Satya Nadella)接受媒体采访时的一个观点作为结尾:内燃机带来了廉价的动力,互联网技术减少了信息传递的成本,而【【微信】】会让信息的整合、转译、流通变得更加廉价。

AI可能会像工业革命和信息革命一样,引领我们走向下一个时代。