隋唐演义

隋唐演义

人工智能语言与理论 人工智能通用理论的最新进展

双十一 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】

人工智能语言有哪几种,人工智能语言与伦理超星尔雅答案,人工智能需要学哪些编程语言,人工智能用什么编程语言

原标题:黄萱菁:迈向大规模语言模型,“我们从未与通用人工智能如此接近”

我们从未觉得自己与通用人工智能如此接近,这是我做人工智能这么多年以来最兴奋的一个时期。

AI可能会像工业革命和信息革命一样,引领我们走向下一个时代。

复旦科创先锋论坛特别版

“我们WOMEN:走在前线”

演讲实录

迈向大规模语言模型

演讲嘉宾

黄萱菁

复旦大学计算机学院教授、博士生导师

非常高兴来到复旦管院和在座各位青年科创精英、管理精英共同探讨先进的科学技术和管理理念,这是我感到非常荣幸的一件事情,尤其是在妇女节这一周,作为从事人工智能的女性,感到既快乐,又感到身上的担子非常重。

我报告的题目是“迈向大规模语言模型”。我会花一些精力跟大家讲讲什么是大规模语言模型,托【【微信】】的福,这个概念已经深入人心。

1

什么是“语言模型”?

在讲大规模之前,我们先了解什么叫做语言模型。语言模型就是语言的规律。

语言模型有一个问题:概率模型是有窗口的,当你的窗口越来越大,你所需要的计算量开销就更大。由于句子在诸多情景下可能包含巨大的词汇量,导致传统概率语言模型所需的计算资源爆炸式增长。所谓大规模语言模型就是含有巨量参数,能够接受很长一段时间窗口的语言文字。

2017年出现了一个模型叫做 Transformer这是现在预训练模型的基石,也是大规模语言模型的基石。传统的预训练模型有两种思路,一种是以BERT为例的理解式模型,另一种是以【【微信】】的前身GPT为代表的产生式模型。当然也有一些工作尝试把理解式模型和产生式模型结合起来。曾经很长一段时间,理解式的模型被使用得比较多,而产生式模型则需要更高的算力和更长的窗口,一直到有了GPT-3之后,大家才知道它如此之强悍。现在的【【微信】】,还拥有了很强的理解人类上下文的能力。

我们生活在一个飞速变化的时代,几乎每个星期都有新的模型发布, 预训练+微调的方式是前【【微信】】时代的范式,诸如Google、Open AI这样的大厂商将自身开发的大模型开源,供下游应用者在这些模型上进行参数的微调,以取得优异的表现。举个例子:电影影评有正面和负面的,我们要进行分类,仅仅用原来的GPT和BERT效果是不够的,需要人工标注一批任务相关的数据,对模型进行微调。 过去大概三年的时间,这种预训练+微调的范式就是自然语言处理的主要范式。

预训练+微调范式带来了自然语言处理的新时代,对上游和下游都带来深远影响。上游是厂商制造出来越来越强大的模型,模型的参数规模以指数的规模增长;下游则是将预训练的大模型合理应用到各种任务上。过去两年有一个非常时髦的概念叫做“小样本学习”或者“少样本学习”,刚才我们说过,如果要完成某一个任务,可能需要人工标注大量的数据,但在少样本场景之下,只需要一两条数据,大规模语言模型就能够给出相当不错的性能。

2

当语言模型变得更大……

不过,当语言模型变得更大的时候,一方面,厂商出于商业原因逐渐舍弃开源,OPen AI没有开放过GPT3模型,只开放API接口,你可以调用,但是拿不到内部细节,今年新出来的【【微信】】连论文都没发表 ,只能靠大家去猜测;另一方面,用户也缺乏足够的计算资源使用大模型,所以我们非常期待国产芯片,能够让我们拥有更多的算力去运行大规模语言模型。

这样的情况之下, 我们有了一个新的范式,就是要利用大规模语言模型的涌现能力。所谓的涌现能力是什么?当模型的参数规模还不太大的时候,你看不到它的强大,当达到某一个临界值时,这个模型就会非常强大,目前我们认为这个参数规模的临界值可能是650亿。

早期的GPT-3还不太理解用户的需求,但最近不论是【【微信】】还是我们实验室开发的MOSS,都拥有了比较强的写代码能力。

我们发现代码是非常好的数据,因为代码有逻辑性,是结构化的,还带有注释和文档,我们可以进行语义方面的对齐。至于什么数据是最好的数据,我认为纸制的媒体、书、报纸是最好的,大家看【【微信】】说的话,是很漂亮很流畅的语言文字,如果我们用论坛、微博等平台上的文字训练它,它说的内容可能就不是那么优美了,这一点很有趣。

GPT-3发布于2020年,只公开了API,人们只能通过接口使用,并授权了很多公司在上面开发小业务。通过这个过程,它搜集了大量的用户行为,知道哪些需求是用户感兴趣的,哪些任务是用户关心的,基于人类的反馈,来训练语言模型,了解人类的价值观。

训练大模型的开销非常之大,需要大量的算力,中小公司会感到负担很重,根本无法简单地进行这样的语言模型训练。 于是我们可以尝试把语言模型做成一个服务,你跟它进行交流,它给你反馈结果。我们还可以通过无梯度优化的方法写出更加高质量的提示或者指令,让它更大程度展现它的能力。

在语言模型服务方面,我们从两个方面开展工作,首先我们要去开发模型基座,在过去几年,我们开发了亿级规模、十亿规模到百亿规模的参数,目前跟GPT-3相比,我们大概差一个数量级。此外,我们还研究怎样利用语言模型的能力对它进行调优,让它实现各种各样的任务。

3

自然语言处理的七种范式

接着我们来看一下 自然语言处理的七种范式:分类、匹配、序列标注、机器阅读理解、Seq2Seq、【【微信】】(序列到动作序列)和掩码语言模型范式。 这些也是这几年自然语言处理的范式迁移。

【【微信】】最强大的能力就是它的多用户的能力,它能够处理各种各样的任务,你不需要事先教它,它就已经掌握了。实际上【【微信】】已经通过与人类的交流,比如通过标注了一万多条用户数据,人工写了很多很好的高质量答案,它再用这些答案训练,知道了人类的需求。

现在我们有许许多多的公司,每个公司做一件任务,并把这个任务做到极致,就能够占领一个细分领域。 未来自然语言处理将与现在不同。“七种武器”的时代,我们有各种各样的范式,分类范式、匹配范式、序列到序列、语言模型的范式,一个模型就可以打天下。

我们来看一下统一的模型基座。 统一模型基座,即可以用一种武器、一个方法统一所有的任务,这是我们在2021年的工作,这个工作早于【【微信】】的出现。但是我们没有做几千种任务,我们做了两类任务。第一类任务是情感分析,有七个小类。我们提出用生成式的框架,通过把一个任务转为语言模型能生成的输出形式,这样的话我们只要少量的任务数据就可以训练出一个语言模型。我们这个模型用的基座是BART,如果我们用了更强悍的基座,可以把需要的样例减到更少。

BERT针对的是自然语言的理解,GPT是自然语言的生成。既然构造大模型的初衷是为了合众归一,那么能不能将它们汇总到一起?我们在2021年提出一个新的语言模型叫做CPT,将理解任务和生成任务合并到一起。CPT是一个非对称的Transformer模型结构。该结构由一个Encoder(任务间共用)和两个Decoder(一个面向理解,一个面向生成)组成,既具备理解的能力又具备生成的能力。

我们从去年年底开始训练MOSS,是在CPT的基础之上训的,我们给它用了更多的算力和数据,训练了两个月,然后出来了目前这样一个版本。

4

【【微信】】时代

该如何使用语言模型?

下面谈一下高效调优算法。

在【【微信】】时代,该怎么样使用语言模型?我们有几个思路。

第一个思路叫做Text prompt(文本提示),通过人工设计一些基于文本的指令,激活大模型面向特定下游任务的能力。但是手工设计偏向于特征工程问题,需要工程师依据既往经验不断调试,十分耗费精力。

第二个思路是In-context learning(情景学习),在GPT模型上展现了良好的表现,这种手段开辟了一个极具前景的方向,值得学界和工业界继续共同研究。

第三个思路是Data generation(数据生成),不同于直接使用大模型,这种手段是使用大模型生成一定量的数据,再利用生成的数据训练一个小体量的模型,以追求在小样本场景下的应用效果。

第四个思路是Feature-based-learning(特征学习),把预训练模型的输出作为一种Feature,并结合标签,输入给一些特定的模型,使参数由标签空间向特征空间靠拢,极大地减轻了端侧优化的负担。

我们提出 标签调优方法,这属于特征学习范畴。这个标签调优的想法是这样的,我们在做机器学习的时候一般是先有一个特征空间,比如说情感分析:褒义词和贬义词,分词则可以用上姓氏、称谓等等特征。以前的做法就是在标签空间去做微调,但是我们发现还可以反而求之,冻结参数,然后让标签向参数空间去调整,将来就可以用统一生成式的框架解决问题,比如分类时,可以直接让它生成类别的标签。

还有就是 Black-box optimization(黑箱优化),让用户根据推理API的返回结果,使用基于搜索的无梯度优化方法自己优化指令。

并不是所有的人、所有的公司、所有的学校都可以去训练【【微信】】这样的模型。

用户怎么样能够让【【微信】】等大模型返回更加符合我们个性化需求的结果?我们想了一个很巧妙的方法,在用户指令上面加一段,比如说实数的向量表示,把它送到大模型【【微信】】,返回一个结果,可以计算出来现在这个模型是不是能够满足我们的需求,然后我们可以去调整指示。因为我们增加的一小段向量可以修改,经过修改让它做一些自适应的调整,得到更好的结果。

5

如果【【微信】】参加中国高考……

接下来简单看一下我们对【【微信】】做的一些分析。我们对它已经有一些很直觉的认识,比如能够写作文,能够写案件的判决,能够写发言稿。它的能力边界在哪里?

首先是我们所说的情景学习,给它加例子,它会返回跟例子相似的答案。【【微信】】用了很多代码进行训练,如果大家在跟它交流的时候,让它做数学题,而不是直接给例子,直接把这个过程用数学公式写出来,或者用程序代码编出来,它就会做得非常好。

【【微信】】还有一个跟人类反馈对齐的过程。它找了很多专家,对一万多个问题写了很多答案,用这样的任务数据提升它的模型性能;然后强化学习,用它的模型随机生成若干个答案,让许多人标注,从而学习人类的价值取向,再用这个价值取向修改模型,用新的模型重新再去提升它的性能,最后和人类需求越来越对齐。

【【微信】】曾经参加谷歌的招聘面试,拿到L3级入门工程师的offer。除了写代码,我们也让【【微信】】做做中国的高考题。

2022年高考历史全国甲卷的第一题,需要分析给定文本“天下太和,百姓无事”最接近的政治理念。【【微信】】分析认为根据题干信息,这一思想最接近老子“无为而治”的道家思想,因此选B,给出的答案也是正确的。 我们在客观题上对【【微信】】进行了测试,【【微信】】的水平基本相当于500分左右的高考生。 我们发现【【微信】】更擅长文科,在历史、地理、政治上取得了不错的成绩,而生物、化学、物理等理科学科上表现不佳,尤其在物理上。

我们实验室3月2号发了一个针对【【微信】】的测试报告。我们对【【微信】】各种各样的模型基座进行了几十万次测试,我们自动写了很多命令,挑出来比较好的指令。如果指令写得不好的话,它的性能就没有那么高,但是我们总要把它最强大的性能抽出来,这就需要好的指令。

任务之一是机器阅读理解。我们发现,在阅读理解任务上,【【微信】】已经比现在最好的方法都强,尤其它可以不需要例子,而过去要花很多时间来调优。 我跟实验室的同事们说,以后我们就不做阅读理解的任务了,因为你做不到【【微信】】的水平,就没有什么价值了。

而关系提取任务,要从一篇文章中间提取出来实体,比如说“比尔盖茨创办了微软”,【【微信】】的提取性能还不太好。

以后我们应该怎么样跟【【微信】】错位竞争?它做得好的事情可能就不再是我们的重点,它做得不好的,我们还可以进一步改进。

我们发现, 【【微信】】的强大性能都是在现有的机器学习框架下可以解释的,并没有一些很玄的东西。我相信除了OpenAI,会有很多机构,包括大学和企业在类【【微信】】模型方面会有大的突破。

我们 把【【微信】】这些认为是人工智能的基座,就像大脑一样,当你给它加输入,它可以读,给它加输出,它可以说,我们甚至可以给它加上手机、机器人,让它具有各种硬件外围。

我们从未觉得自己与通用人工智能如此接近,这是我做人工智能这么多年以来最兴奋的一个时期。我以前一直觉得它在我可以预见的将来是看不到的,但是现在我觉得可能不是那么遥远了。

在肉眼可见的未来, 善用AI的人将和不用AI的人在工作效率上会产生巨大差距,因此我鼓励大家多去使用和熟悉,与AI进行沟通。在未来一段时间内,【【微信】】还不足以完全替代某一个岗位,但将大大促进各个领域的生产效率。我们希望AI是帮助人类的工具,而不是取代人类的机器。

最后以微软CEO萨提亚・纳德拉(Satya Nadella)接受媒体采访时的一个观点作为结尾:内燃机带来了廉价的动力,互联网技术减少了信息传递的成本,而【【微信】】会让信息的整合、转译、流通变得更加廉价。

AI可能会像工业革命和信息革命一样,引领我们走向下一个时代。

我们WOMEN:走在前线

我们将陆续分享

论坛精彩内容

欢迎关注返回搜狐,查看更多

责任编辑:


火电控制系统企业 高耗能企业电力服务

火电厂控制系统的组成单元,火电机组控制系统主要包含,火电厂常用的控制机构,火电厂控制方式

  高鸿股份(000851)03月16日在投资者关系平台上答复了投资者关心的问题。

投资者:请问公司有没有能力为电力行业提供在线智能化的在线服务?

  高鸿股份董秘:尊敬的投资者,您好,公司为电力行业客户提供智慧电厂解决方案,支持智能化在线服务。

  投资者:请问公司到底有没有推出在线业务办理的服务?

  高鸿股份董秘:尊敬的投资者,您好,公司在广电、制造服务业推出了在线业务办理服务,用户可通过网上营业厅、区域工业互联网平台等电子渠道在线办理业务。

  投资者:公司产品是否包括文本类型的业务问答机器人

  高鸿股份董秘:尊敬的投资者,您好,公司工业互联网平台、呼叫中心等产品中包括文本类型的智能问答机器人,支持基于NLP、上下文的对话管理。

  投资者:公司股东减持计划未减持是否可以理解为公司股东看好公司未来发展?请问公司的未来前景怎么样?

  高鸿股份董秘:尊敬的投资者,您好,请关注后续相关公告。

  投资者:市场传言公司是24个chatGPT概念的公司,请问公司究竟有没有关注这个新科技发展趋势?

  高鸿股份董秘:尊敬的投资者,您好,公司暂时未涉足chatGPT。公司对chatGPT保持高度关注。

投资者:请问公司和浪朝信息公司有什么关系?

  高鸿股份董秘:尊敬的投资者,您好,公司可信计算系列软件产品与浪潮英政计算机完成互认证。

  投资者:您好!请问贵公司或贵公司的参股公司在AIGC,ChatGPT,数字经济/数据要素/数据确权/数据中心,web3.0,NFT等方面都有什么布局?麻烦请尽快介绍一下,谢谢!

  高鸿股份董秘:尊敬的投资者,您好,公司在智慧交通、工业互联网、信息安全等业务领域进行布局,有利于国家数字经济的发展。

  投资者:请问一下,公司上市至今募集了几次资金,一共募集了多少钱。

  高鸿股份董秘:尊敬的投资者,您好,请详见公司定期报告。

投资者:请问公司有无6g相关技术研发合作或相关产品落地的?

  高鸿股份董秘:尊敬的投资者,您好,公司暂无6G相关技术研发合作或相关产品。

  投资者:股东减持日已到期,为什么还没有公布减持结果

  高鸿股份董秘:尊敬的投资者,您好,请关注公司后续相关公告。

投资者:请问公司和华为在车联网领域合作有形成实际收益了吗?

  高鸿股份董秘:尊敬的投资者,您好,公司与华为在车联网领域为战略合作伙伴关系,共同推动车联网产业发展。

投资者:请问公司在chatgpt领域有哪些布局和规划?

  高鸿股份董秘:尊敬的投资者,您好,公司暂时未涉足chatGPT。

投资者:公司有没有六G技术和六G业务?

  高鸿股份董秘:尊敬的投资者,您好,公司暂无6G技术及相关业务。

投资者:请问公司在东数西算领域有什么布局吗?

  高鸿股份董秘:尊敬的投资者,您好,公司坚决支持国家战略,正在积极研究相关战略部署。

投资者:请问公司在人工智能领域有哪些布局和发展?

  高鸿股份董秘:尊敬的投资者,您好,公司愿景是成为行业内领先的数智化专家,业务主要布局于工业互联网、车联网、智慧城市、信息安全、信息服务等领域。在以上应用领域中,都将结合人工智能关键技术。

投资者:请问公司和百度有哪些合作关系?

  高鸿股份董秘:尊敬的投资者,您好,公司参股公司智联是百度自动驾驶定制化V2X模组主要供应商,在百度智慧交通项目中,智联是重要路侧设备供应商。

投资者:请问公司多久才回答投资者提问呢?

  高鸿股份董秘:尊敬的投资者,您好,感谢您对公司的关注。

投资者:请问公司有没有布局数据中心?目前有哪些优势?

  高鸿股份董秘:尊敬的投资者,您好,公司在上海拥有4个高标准的数据中心,为众多行业客户提供服务,以高等级行业标准,保障客户业务运行。

投资者:请问公司有没有退市风险?

  高鸿股份董秘:尊敬的投资者,您好,感谢您对公司的关注。

投资者:请问公司有没有关注ChatGPT和人工智能技术新发展?

  高鸿股份董秘:尊敬的投资者,您好,公司暂时未涉足chatGPT。公司对chatGPT保持高度关注。

投资者:高鸿股份是不是北京N腾人工智能计算中心首批签约企业?

  高鸿股份董秘:尊敬的投资者,您好,公司不是北京N腾人工智能计算中心签约企业。

投资者:公司一季度业绩会有开门红嘛

  高鸿股份董秘:尊敬的投资者,您好,请关注公司相关公告。

  投资者:请问公司有没有关注Chat GPT和人工智能技术?将来是否会加大科技创新力度?

  高鸿股份董秘:尊敬的投资者,您好,公司暂时未涉足chatGPT。公司对chatGPT保持高度关注。

投资者:请问贵公司在6G领域有布局吗?

  高鸿股份董秘:尊敬的投资者,您好,公司暂无6G技术及相关业务。

  投资者:公司大股东信科院是否有6G业务和技术,是否会注入到公司,公司有6G通信设备吗

  高鸿股份董秘:尊敬的投资者,您好,中国信科集团有6G技术研发方面的布局,公司目前暂无6G相关产品。

投资者:今年一季度业绩开门红嘛

  高鸿股份董秘:尊敬的投资者,您好,请关注公司相关公告。

投资者:请问公司有没有参与6g概念

  高鸿股份董秘:尊敬的投资者,您好,公司暂无6G技术及相关业务。

投资者:董秘你好,请问截止到3月3日公司股东户数是多少?感谢答复

  高鸿股份董秘:尊敬的投资者,您好,截至2023年02月28日收盘公司股东人数约为9.8万户。

  投资者:您好,请问公司近期合作项目方都有哪些公司?

  高鸿股份董秘:尊敬的投资者,您好,请关注公司相关公告。

  高鸿股份2022三季报显示,公司主营收入38.85亿元,同比下降26.16%;归母净利润2.12亿元,同比上升760.42%;扣非净利润-1.29亿元,同比下降1845.41%;其中2022年第三季度,公司单季度主营收入12.15亿元,同比下降39.58%;单季度归母净利润-5088.97万元,同比下降396.31%;单季度扣非净利润-5320.61万元,同比下降572.46%;负债率49.99%,投资收益3.27亿元,财务费用5993.04万元,毛利率6.92%。

  该股最近90天内无机构评级。近3个月融资净流出2721.77万,融资余额减少;融券净流入115.85万,融券余额增加。根据近五年财报数据,证券之星估值分析工具显示,高鸿股份(000851)行业内竞争力的护城河一般,盈利能力较差,营收成长性较差。财务可能有隐忧,须重点关注的财务指标包括:应收账款/利润率、应收账款/利润率近3年增幅。该股好公司指标0.5星,好价格指标1星,综合指标0.5星。(指标仅供参考,指标范围:0 ~ 5星,最高5星)

  高鸿股份(000851)主营业务:企业信息化业务、信息服务业务、终端销售业务。

  以上内容由证券之星根据公开信息整理,与本站立场无关。证券之星力求但不保证该信息(包括但不限于文字、视频、音频、数据及图表)全部或者部分内容的的准确性、完整性、有效性、及时性等,如存在问题请联系我们。本文为数据整理,不对您构成任何投资建议,投资有风险,请谨慎决策。

炒股开户享福利,送投顾服务60天体验权,一对一指导服务!
海量资讯、精准解读,尽在新浪财经APP