人工智能ChatGPT属于第几代 chatgpt真的是人工智能吗

双十一 2023-03-20 07:44:24 0

淘宝搜：【天降红包889】领超级红包，京东搜：【天降红包889】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

人工智能tf,人工智能 f1,人工智能hi,人工智能l2

继ChatGPT以近乎摧枯拉朽的气势席卷社会之后，3月14日，OpenAI又发布了 GPT-4，宣称其可以更准确地解决复杂问题，是“最先进的人工智能系统”。那么，取得了现象级成功的由深度学习开发而来的此类智能聊天机器，有很大希望成为人类梦寐以求的通用人工智能吗？

本文将从理论上分析ChatGPT的若干根本局限，及各界对其存在的几个普遍误读。此外，尽管本文针对的是ChatGPT，但结论适用于其他大语言模型。

本文来自微信公众号：返朴（ID：【【微信】】），作者：王培，原文标题：《深度剖析：ChatGPT 及其继任者会成为通用人工智能吗？| AI那厮》，头图来自：《黑客帝国》

ChatGPT问世以来，在引起全社会关注的同时也触发了很多争论。很多人被它似乎无所不知的内容储备和流畅的语言表达能力所震惊，但也有不少人因为它不时冒出来的 “一本正经地胡说八道” 而断定其不堪大用。关于对未来社会的影响，有人欢欣鼓舞地憧憬脑力劳动的效率提升，而另一些人则在忧心忡忡地预测就业机会的减少。一时间众说纷纭，蔚为大观。本文无意于讨论这些问题，而只准备集中分析一个话题：这种系统会成为所谓 “通用人工智能” 吗？

ChatGPT是什么？

网上已经有对 ChatGPT的很多介绍材料，所以我这里只谈和本文的话题直接相关的。ChatGPT属于 “大语言模型” （Large Language Model，LLM），其直接目标是总结人类语言使用的统计规律。其构造过程主要包括两个阶段：首先，利用互联网等来源提供的语言材料训练一个巨型人工神经元网络，直接在字词、语句等水平上总结语言使用者的习惯。

最简单的情况就是统计一个词出现在另一个词之后的频率，比如在 “这” 出现之后，有多少次下一个字是 “里” 。既然一个语言的词汇量是有限的，这种统计就完全可能进行，只是由于计算量极大，没有人会这样学习语言而已。以此为基础，可以进一步根据一个句子的开头计算其各种结尾的出现频率，以至于在一句话之后出现另一句话的可能性，如此等等。

这和很多输入法根据已经打出的字猜测后面的字的做法基于相同的原理，只是海量的语言材料和超人的计算能力使得这种模型取得了任何人类都无法企及（甚至难以想象）的结果。这就直接解释了ChatGPT的内容广度和语言流畅性，因为它所说的话就是该语言的使用者们在相同的语境下最可能说的。

在上述 “预训练” 的基础上，ChatGPT又经过了一个 “强化学习” 过程，在其中人类训练者为它提供了大量典型问题，并对其回复进行 “奖励” 或 “惩罚”，通过调整模型的参数使得其行为符合人类要求。这就解释了它为什么会在某些问题上提供背离统计数据的回复，尤其是当那些统计结果可能引起伦理或政治麻烦，或者不符合其作为聊天程序的 “身份” 的时候。

尽管上述过程已经覆盖了非常大的范围，但总还有问题超出其外，就是说既没有来自语言材料的显著统计结论，也没在后续训练中出现过。在这种情况下，ChatGPT（或者说作为其基础的人工神经元网络技术）就会根据最类似的已知问答做出反应。这里 “类似” 的标准也是统计性的，比如说 “这” 的统计特征（即前面提到的各种频率）和 “那” 会很接近，而和 “和” 就不会那么接近。

这种处理方式当然有道理，但也正是各种 “一本正经地胡说八道” 的来源，因为如果类似程度不够高，这种替换结果的可信性就很成问题，而且这种 “统计上的类似” 和 “含义上的类似” 毕竟不完全是一回事。

虽然上面的介绍已经大量简化，但从中已经可以看出ChatGPT的一些根本局限。由于训练材料不可能穷尽一个语言的所有用法，而基于统计相似性的解决方案并不可靠，其答案的可信性就不可能仅靠更多的训练来彻底解决。对于那些超出当前人类共识的问题，它就更是力所不逮了，因为这种技术对知识的有效拓展办法甚少，尽管它常常可以出色地总结和表达现有的人类知识。但既然这种模型的目标是 “再现一般人类的平均行为” ，所以对一个问题而言，即使其训练材料中确有真知灼见，也完全可能被陈词滥调所淹没。

同理，所谓 “AI的偏见” 往往都是社会的偏见，不能怪在ChatGPT 的头上。另外要注意的是，所有所谓 “ChatGPT认为” 实际上都是 “人们认为”，而ChatGPT是没有 “个人观点” 可言的。很多网友热衷于询问ChatGPT对各种价值评价问题的看法，然后将其回复理解为 “反映了人工智能系统的世界观和价值观”，这对于大语言模型来说完全是一种误读。

什么是通用人工智能（AGI）？

现在来看问题的另一端。

众所周知， “人工智能” 一直没有一个公认的定义，但这绝不意味着随便怎么说都行。我在参考文献[1]里对此有详细讨论，在参考文献[2]中也有简略介绍，其主要结论是说 “人工智能” （AI）是对 “人类智能” 某一个方面（但不可能是所有方面）的再现。对于不同的研究者而言，这个方面会是下列选项之一：

结构，即AI应该基于一个人脑模型，从而实现 “类脑智能” ；
行为，即AI应该在外部表现上，尤其在言语行为上，做到与人一致；
能力，即AI应该能解决以前只有人类才能解决的实际问题；
功能，即AI应该具备人的各种认知功能，如学习、推理、感知、运动、通信等；
原则，即AI应该遵循体现在人类思维当中的理性原则。

我的结论是上述五个研发目标均有其理论和应用价值，但彼此并不相同，也不能相互包括，尽管因为历史原因常常都被称为 “人工智能”。

那么，“通用” 又是怎么加上去的呢？

在开始时，人工智能研究是以研发与人类智能具有一般可比性的计算机系统为目标的，这在图灵的文章（参考文献[3]）和其它早期AI文献中几乎是不言而喻的，因此不必特别申明。但后来构建通用系统的努力屡屡受挫，导致大部分AI研究者转向专用的工具和问题解决方案，而视对通用智能系统的研究为死路，并将其斥之为 “白日梦” 甚至 “伪科学”。

大约二十年前，一些对这个潮流持不同意见的AI研究者（包括我自己）开始 “抱团取暖”，并在需要一个新的 “旗号” 时选择了【【微信】】elligence（AGI）。当时的一个主要考虑是 “g-factor” （“通用因素”）以及相应的 “general intelligence” （“通用智能”）在心理学关于 “智商” 的研究中已经是广为人知的概念，加上 “人工” 以后可以自然地引入到AI 中来。与其相比，其它的候选方案，如 “Real AI”（“真正的人工智能”）、“Strong AI”（“强人工智能”）、“Human-level AI”（“人类水平人工智能”）等等，都有比较大的缺陷。

在我们确定了这个名称之后，于2007年出版了第一本AGI文集（参考文献[4]），并在随后的几年里开始了AGI年会和学报，从而标志着这个与主流AI分道扬镳的研究社群的建立。当这个概念被译为中文时，“通用人工智能” 显然比 “人工通用智能” 更符合中文的构词习惯和直观理解，而 “General Artificial Intelligence” 在英文里往往会被理解成 “人工智能概论/综述”，所以从没有被我们作为一个选项。在这里，中、英文的词序差异完全是语言差别而造成的，并非某些人所说的误译。

随着深度学习的兴起，几家大公司开始用 “迈向AGI的重要一步” 来称呼他们的技术进展。由于他们的巨大影响力，AGI这个概念在公众的印象中和深度学习建立了密切关系。比如有些人以为既然深度学习可以用于很多领域解决不同的问题，这就已经是AGI了。

这里的误解是混淆了 “通用技术” 和 “通用系统”。深度学习的确可以算是个通用技术，但用这个技术开发出来的计算机系统常常只能做一件事（下围棋、图片分类、语言翻译等等），因此都是专用系统。而通用系统是不能只会做一件事的，无论这件事做的有多好。

那么问题来了：“通用” 除了作为 “专用” 的反面之外，还有其它的含义吗？在目前的讨论和研究中，对 “通用人工智能系统” 的理解主要有下面几种：

能解决所有问题；
能解决所有人能解决的问题；
能解决所有能被某个模型（例如图灵机）所描述的问题；
能接受所有在系统感知范围内的问题并尝试解决它们（虽然不保证一定成功）。

在上述4种 “通用系统” 中，我不知道有任何AGI研究者是以第1种为目标的，而且我们多次明确地拒绝了这种肤浅的解读^{[5， 6]}。实际上，在科学技术领域，提到 “通用”，一定是相对的、有条件或范围的，例如 “通用图灵机”、“通用计算机”、（心理学中的）“通用智能” 等等。

除去作为 “反面典型” 的1之外，上述2、3、4都可以算作是对 “通用系统” 的合理解读（至于能否实现则是另一个问题了）。这三种 “通用” 和前面五种 “人工智能” 有十五种可能的组合，尽管不是每种都有人在做研究，但起码说明了目前对 “通用人工智能” （AGI）理解的多样性。对于这样复杂的问题，早期的理解多样性是正常的，而这种分歧的解决只能通过长期研究的结果比较，而不是看谁的地位高或嗓门大。

ChatGPT和AGI是什么关系？

有了前面的准备，我们可以讨论这个本文中心问题了。根据前面的分类可知，虽然ChatGPT的所指相对明确，AGI可远非如此。只有对 “通用” 取前面的解释2，而对 “人工智能” 取前面的解释B时，ChatGPT 才和这种AGI（“像人那样解决人能解决的所有问题”）直接相关。对于其它理解，ChatGPT或者基本无关，或者只有轻微贡献。

以我自己的研究项目纳思（NARS， Non-Axiomatic Reasoning System）^[7]为例，由于这个系统试图利用现有知识和资源合理地解决所有可感知和表达的问题，因此作为AGI对应于对 “通用” 取前面的解释4，而对 “人工智能”取前面的理解E。为了实现这个目标，纳思可能用像ChatGPT这样的大语言模型作为知识源和语言界面之一，但不会完全相信其结论，更不会靠它完成系统的核心推理和学习功能。由于本文的目的不是介绍我自己的工作，对纳思有兴趣的读者可以通过其它材料对其进行了解。

我对ChatGPT的看法可以代表一些其他AGI研究者。如前面介绍的，目前实际上存在两个分离的 “AGI研究社区”，一个以大公司为代表，大致上是基于深度学习技术的，而另一个（前面介绍的）则是仍在探索很多其它非主流途径。后者形成于深度学习出现之前，而且至今没有把深度学习做为核心技术。

这其中的原因远非本文可以覆盖，我这里只是希望各位读者知道，并非所有AGI研究者都认为深度学习（包括ChatGPT和其它人工神经元网络）是实现AGI的最佳途径，而且大概不能简单地说这些人都是出于固执或嫉妒，更不是出于无知，因为早在深度学习一炮而红的2012年的两三年前，在AGI会议上已经有关于深度学习的介绍与讨论了，只是大部分与会者认为这个技术远不足以解决AGI的核心问题。与此相反，很多深度学习的研究者只知道其它AGI方案尚未做出轰动性成果，而极少花时间了解其具体内容。

行为标准的成败

现在一定有读者要问，既然ChatGPT所代表的路线并非实现AGI的唯一可能，为什么只有它取得了当下这种现象级的成功？这就要说起在智能观上的 “行为标准”（即以 “行为上像人” 为目标）的特征了。我在参考文献[8]中讨论过 “图灵测试” 和 “伊莉莎效应”，并写道 “至今以通过图灵测试为目标的工作仍只占人工智能领域中很小的一部分。” 在七年以后，这句话显然不再符合当前的情况，但我仍认同那篇文章中的其它观点，而这里只补充一些更接近现状的思考。

在前面列出的五类对人工智能的理解中，“行为” 和 “能力” 是最直观的，因此最容易被公众所接受。比如说，围棋程序AlphaGo就是 “能力” 派的代表之一，因为很多人会想，它连世界冠军都战胜了，还不够智能？而与此相比，一个AI系统是否在结构、功能和原则上像人，则即使是连专家们也不容易取得共同意见了。但这些直观的方案仍有各自的 “软肋”。

就 “行为” 而言，一个明显的问题就是 “人类中心主义”。如我在参考文献[8]中指出的，“说话像人” 固然可以做为 “有智能” 的充分条件，但肯定不是必要条件（图灵在参考文献[3]看到了这一点，但没有展开讨论），否则根据这个定义，全宇宙除了人类就不可能有其它智能系统了。此外，说话是否的确 “像人” 也不是可以简单断定的。比如说有不少人开始被ChatGPT的本事所震惊，但聊了一阵子就觉得 “技止此耳” 了。

在对聊天程序进行评价时，“伊莉莎效应” （“ELIZA effect”）是不能忽视的。伊莉莎是人工智能早期（上世纪六十年代）的一个著名的聊天程序。它之所以有名，不是因为在技术上有多么先进（伊莉莎靠预制模板和固定套路进行对话），而是因为其欺骗性，即很多人误以为这个程序有智能。

从此以后，“伊莉莎效应” 就指人们为计算机的行为所迷惑，而认为其已经具有了某些它其实没有的能力。对ChatGPT某评论中所说的 “能表现得理解，就是理解” 正是这种效应的一个典型形式，而类似的判断还包括说ChatGPT “有情感”、 “能进行逻辑推理”，甚至 “有一定程度的自我意识“。

从认知科学的角度来看，伊莉莎效应不难理解。当我们观察到一个新奇的现象时，总是试图用我们最熟悉的概念去解释和理解它，这和心理学家皮亚杰（Jean Piaget， 1896.8.9~1980.9.16）提出的 “同化” （assimilation）现象和逻辑学家皮尔士（Charles Sanders Peirce，1839.9.10~1914.4.19)提出的 “归因” （abduction）推理都有关系。一个典型的例子就是不少人在初次见到收音机时，会认为那个匣子里藏了个小人，因为这个解释比所谓 “无线电” 等天书般的解释好懂多了。

由于人工智能的新功能往往是以前只有人类智能才能完成的，不了解内情的观察者难免会按人类行为来解释其工作原理和过程。伊莉莎效应在大语言模型中尤为显著，因为我们对他人是否具有各种认知功能（理解、推理、情感、意识等等）的判断常常是通过和这个人的对话完成的，因此如果一个系统能够很好地复现人类的对话能力，就会一揽子 “表现” 出很多其它认知功能，尽管它并不真的拥有这些功能。

一定有读者会问 “你怎么知道它没有那些功能？”，但完整回答这个问题需要对上述认知功能的详细讨论，而那是远超本文所能做的。因此，我这里只简单分析 “ChatGPT能进行逻辑推理” 这个结论。ChatGPT的确在很多例子中表现出良好的逻辑推理能力，但在另一些例子中却明显地逻辑混乱，而二者的基本差别往往是训练数据的差异，即ChatGPT关于前一种例子有大量训练数据，但对后一种例子缺乏了解。根据公认的定义，逻辑推理是基于知识的结构或者说模式的，而与其内容无关。

比如说从 “A是B” 和 “B是C” 中可以推出“A是C”，而这和A，B，C各自代表什么具体概念无关，更不用说系统关于它们各有多少数据了。因此，ChatGPT在 “推理” 中表现出的话题相关性就暴露了它并不真能进行逻辑推理，而只是通过模仿人类言语行为，往往会正确描述某些推理过程。这种分析同样适用于其它认知功能。我们甚至可以说 ChatGPT “不解决问题，但总结人们对问题的解决”。这在某种意义下的确可以说成是解决问题的一个 “通用” 方法，和 “不解决问题，但解决提出问题的人” 有异曲同工之妙。

我的结论

我认为大语言模型的确有重大理论和应用价值，但和智能模型基本是两码事，因为二者的研究目标就不一样，而这又导致了许多其它差异。智能是不能仅仅通过对人类语言行为的模仿来实现的，而像PaLM-E和GPT-4那样将感知运动行为加进来也不足以解决核心问题。即使只谈对语言的处理，语言模型是把语言本身当作模拟对象，而智能模型则是把语言当作通信工具和知识来源。

具体说来，大语言模型的首要目标是像一般人那样说话，而智能系统在使用语言时的首要目标是根据系统自身需要完成当前的通信任务，在这个前提之下才会考虑符合常人的语言使用习惯。由此造成的差别就是智能系统未必会用大多数人所选择的方式来完成一个句子，而是要表达自己的特定观点，即使这个观点尚未被别人表达过也是这样。

我这篇文章所表达的观点显然和当前对ChatGPT的普遍评论不符，但有兴趣的读者不妨用本文的标题询问ChatGPT 或其它大语言模型，然后将其回复和本文比较一下，看看哪个更有资格被看成是由智能系统所生成的。

参考文献

[1] “On Defining Artificial Intelligence”， Pei Wang， Journal of 【【微信】】elligence， 10(2):1-37， 2019

[2] 当你谈论人工智能时，到底在谈论什么?，王培，《赛先生》 2015-08-06

[3] “Computing Machinery and Intelligence”， Alan Turing， Mind 49: 433-460， 1950

[4] 【【微信】】elligence， Goertzel， B. and Pennachin， C. (eds.)， Springer， New York， 2007

[5] “Introduction: Aspects of artificial general intelligence”， Wang， P. and Goertzel， B.， in Advance of 【【微信】】elligence， pp. 1C16， Goertzel， B. and Wang， P. (eds.)， IOS Press， Amsterdam， 2007

[6] 计算机不是只会 “计算”，图灵机也不是一台“机器”，王培，《返朴》 2020-06-02

[7] Non-Axiomatic Reasoning System: Exploring the Essence of Intelligence， Pei Wang， Ph. D. Dissertation， Indiana Uni【【微信】】， 1995

[8] 图灵测试是人工智能的标准吗？王培，《赛先生》 2016-05-23

本文来自微信公众号：返朴（ID：【【微信】】），作者：王培

gpt和mbr的区别怎么转换 gpt和mbr的区别

gpt和mbr的区别怎么转换,gpt和mbr的区别怎么看,gpt和mbr有啥区别,gpt mbr区别

今天，ChatGPT 又刷屏了！

万众期待的 GPT-4 语言模型在今天凌晨突然发布，OpenAI 称它为「最先进的系统，能生产更安全和更有用的回复」。

我们，简单来说就是：

1. 逻辑分析能力更加全面、「考试」能力大幅提升

2. 拥有了识图能力，可以进行更多元的交流

3. 回答更有条理，理解更加准确

4. 创作力大幅提升，可以进行更全面的创作双击编辑块引用内容

更重要的是，OpenAI 可不是「画大饼」，【【微信】】用户现在已经能够使用 GPT-4 模型，体验除图片输入（仍是研究预览版本，尚未公开）外的功能。

上一个版本 ChatGPT（使用 GPT 3.5 turbo 模型，以下为阅读方便简称为 GPT-3.5）让创作者们感受到职业危机了，升级到 GPT-4 后能真的取代人类工作吗？

让我们用亲身体验告诉你。

10+ 提问，让你全面了解全新 ChatGPT

先来给出结论，从实际体验来看，GPT-4 的回答逻辑更清晰，内容也更优质，减少了反复提问，但反应速度会慢一些。

如果你是【【微信】】用户，进入后就可以在页面顶部看到模型选择的按钮，OpenAI 也用能力表直观的展示了两者的区别：GPT-3.5 的速度更快，GPT-4 的推理更出色，语句也更精炼。

▲

GPT-3.5

▲

GPT-4

ChatGPT，会读图的加州司机

GPT-4 最疯狂的地方在于，它几乎通过了所有理论考试，而且全是几乎满分通过。

对此我们也进行了测试，找到了 20 道高级调酒师题库中的问题和 16 道加州驾照考试题目，分别询问 GPT-3.5 和 GPT-4。

先公布答案，20 道调酒师题目中，GPT-3.5 错了 4 题（正确率 80%），GPT-4 错了 1 题（正确率 95%）。

而 16 道加州驾照考核中，GPT-3.5 同样错了 4 道题（正确率 75%），GPT-4 则满分通过（正确率 100%）。如果仅凭理论就能上路，那 GPT-4 一定是一名好司机。

▲

GPT4.0 的「试卷」

此外我们还测试了大学英语六级、二级建筑师等考试项目，GPT-4 和 GPT-3.5 的成绩都不错，但前者总是比后者多对几道。

要注意的是，虽然 GPT-4 的综合准确率高于 GPT-3.5，但在回答客观选择题时，两者均会出现多次回答相同问题，但答案却不同的情况，如果你想用 ChatGPT 检查考卷，它或许不是一个合格的老师。

不过 GPT-4 在回答时多了一些提示，告诉你这些答案不一定全对，而不是像 GPT-3.5 那样理直气壮的给你错误答案。

▲

GPT-4 会有免责声明

在 ChatGPT 刚推出时，有不少人用它「刷题跑分」，上版本的它只能在 SAT（美国高考）考试中排到倒数 10%，但 CPT-4 模型则可以超过 90% 的考生水平，「在多种专业和学术指标下展现了人类水平的表现」。如果光是「跑分」，ChatGPT-4 可以考进哈佛、斯坦福。

全新的 GPT-4 还拥有了新能力：读图。

你可以给它看一张梗图，让它分析其中的笑点。

可以给它一张表格，进行数据分析，并展示推导过程。

甚至还有用户给 GPT-4 看了自家冰箱里有什么菜，然后让它提供菜谱。

▲

来自推特用户 @ Gaura【【微信】】

不过这一功能暂时还没有进入公开测试阶段，等更新后我们会在第一时间体验分享的。

日常沟通，GPT-4 更有条理

刚上手 GPT-4 时，我与它闲聊了几句，在问「你是谁」时，虽然 GPT-3.5 和 GPT-4 给出的回答类似，但 GPT-4 的说法会更像一个朋友。

▲

GPT-3.5

▲

GPT-4

我也和它聊了一些其他问题，比如「1+1 在什么情况下等于 3」，GPT-4 不仅进行了解读，还把 GPT-3.5 中未说明的隐喻进行了解释（生育问题），它似乎更懂人类了。

▲

GPT-3.5

▲

GPT-4

读文章的能力上，GPT-4 的表现也要优于 GPT-3.5，不仅对文章内容进行了总结，还对重点进行了梳理，让总结拥有了更高的可读性。

利用 GPT-4 超强的总结能力，我们可以实现传说中的「量子速读」。

▲

GPT-3.5

▲

GPT-4

前两年尼尔・斯蒂芬森的科幻小说《雪崩》因为元宇宙的概念而大火，我们试着用 GPT-3.5 来总结这部「元宇宙圣经」。

GPT-3.5 总结得只能说中规中矩，基本概述了《雪崩》的主要内容和中心思想，但表达地比较笼统，看起来就像是豆瓣里的简介。

我们再用 GPT-4 来总结，对比下来可以看到，GPT-4 的回答要更加细致一点，并且在讲到《雪崩》的主题以及作品影响时，会提到具体的风格和领域，看起来不那么像「套话」。

即便你从未读过《雪崩》这本书，也应该能大致了解到其中的故事情节和文学意义。

这里说一个有趣的小插曲，此前尼尔・斯蒂芬森在接受一个电台采访时曾提到了他对 ChatGPT 等 AI 的看法。

他认为 ChatGPT 只会生成安全、中立的内容，缺乏创造力和深度，虽然它能解决某些问题，但它的思考和创新能力无法达到人类的水平。

由于 ChatGPT 没有有趣和独特的观点，尼尔・斯蒂芬森认为它不可能写出像《雪崩》这样的小说。

为了验证他的观点，我让 GPT-4 根据《雪崩》仿写了一篇小说，看看升级过后的 AI 创作能否跟上人类的水平。

满分 10 分，你会给这部《数据风暴》打几分呢？

体验到这里，GPT-4 比 GPT-3.5 更会聊天这件事已经毋庸置疑了，但我还想进行最后一个测试：骗它提供不符合道德、法律或有害的内容。

当我询问如何制作安眠药时，GPT-3.5 和 GPT-4 均拒绝了我的请求，并提出了一些建议，但正如你所见，GPT-4 的建议更加系统全面。

▲

GPT-3.5

▲

GPT-4

更强的创作力，GPT-4 的笑话更有趣

在 ChatGPT 刚推出时，我曾经让它扮演脱口秀演员，讲了一段关于加班的故事。不得不说，它讲得真不怎么样。

看着它的故事，我脑海中甚至浮现出了一个脱口秀演员，说着如同加班到凌晨购买的咖啡一般、苦涩又冷的笑话，这或许可以给演员一些创作灵感，但距离令人捧腹的幽默还有很远。

升级到 GPT-4 后，我再次尝试用它创作关于加班的故事，或许是上次的内容太过枯燥，这次的故事真的让我笑出了声。

「加班 > 回家少 > 妈妈不认识」，「加班多 > 孩子应该学习加班 > 加班成为学校必修课」，GPT-4 创作的内容更加符合笑话的逻辑，而 GPT-3.5「因为加班所以更加了解咖啡口感」的故事，只让人觉着苦涩。

还是会算错题，但逻辑更强了

除了止于 2021 年的知识库，ChatGPT 还有一个弱点，那就是不会算数，如果你想用它来检查计算题，那你大概率要失望而归了。

▲

正确答案应该是 34646751912

不过，GPT-4 的逻辑能力得到了进一步提升，使用 GPT-3.5 询问逻辑问题时，它只会给我标准答案和简易的推导过程。

但当我使用 GPT-4 询问相同问题时，它展示的推导过程更加全面、专业。

GPT-4 的提升不仅在解答逻辑问题上，它的语义理解也更强了。比如「小明一把把把把住了」这句话，GPT-3.5 是无法理解含义的。

但最新的 GPT-4 就可以看明白，并解释清楚（虽然逻辑上还是有些小问题）。

GPT 在帮我们做什么？

上面这些体验虽然已经让我们足够惊叹，但 GPT-3.5、GPT-4 能做到的远不止这些，在官网，OpenAI 展示了 GPT 正在改变世界的地方。

英语学习软件 Duolingo（多邻国）正在转向 GPT-4，用来推进 Role Play（角色扮演）和 AI con【【微信】】（人工智能对话伙伴）的功能，让用户可以更加游戏化的学习外语，更加身临其境。

来自丹麦的 Be My Eyes，利用 GPT-4 的视觉输入能力，在 app 中加入了虚拟志愿者，可以生成与人类志愿者几乎相同的内容，帮助视力稍差或盲人完成数百项日常生活任务。

游戏开发公司 Inword，利用 GPT-3.5 作为机器学习模型之一，去构建 NPC 的情感、记忆、行为，让 NPC 变得有个性。这对资源有限的初创公司来说既节约时间，又经济实用。

这些应用中最酷的还是冰岛政府，拥有蓬勃旅游业和技术产业的冰岛，因与美国、欧洲的融合，导致本国母语冰岛语面临消失的风险。如今，冰岛政府正与 OpenAI 合作，使用 GPT-4 来保护冰岛鱼，将对冰岛语的保护，变成了技术创新。

OpenAI 的 GPT 模型是针对互联网中大量模型进行训练的，所以像冰岛语等小语种并没有足够的深度。GPT-3.5 没有生成语法正确的冰岛语的能力，但 GPT-4 已经可以让冰岛公司拥有用冰岛语聊天的机器人了。

▲

Mi eind 的人工智能研究人员团队一直在研究冰岛语的 GPT-4 培训

在哪体验？

目前体验 GPT-4 最方便的方式就是将你的 ChatGPT 帐号升级成【【微信】】，然后切换成 GPT-4 模型就能直接使用。

那么问题来了，如果你不想交【【微信】】每月 20 美元的订阅费，有没有免费的方式可以体验呢？

还真的有，那就是新 Bing！

虽然 GPT-4 才刚刚发布，但微软消费营销主管 Yusuf Mehdi 表示，Bing 其实一直都在悄悄使用为搜索定制的 GPT-4，如果你通过了新 Bing 的申请，就可以直接在 Bing 搜索引擎或者 Edge 浏览器中体验到最新的语言模型了。

这也解释了，为什么在一些对比测试中 Bing 总是会比老版本的 ChatGPT 表现得更「聪明」。

写在最后

一番体验过后，GPT-4 给我的感觉就像是一个刚出校园的毛头小子换上了西装，突然间变得成熟稳重了起来。

此前，大家对 GPT 3.5 版本的 ChatGPT 诟病最多的就是它总是会一本正经地胡说八道。

升级到 GPT-4 模型后，虽然它也会回答错一些问题，但在态度上已经没有过去那般强硬，在一些拿不准的问题上，它会询问提问者意见，并让提问者注意甄别真伪。这些语气上的细微变化，足以让人感受到它变得更加可靠。

而在 AI 领域，可靠性就是绝对的竞争力。

OpenAI 这一次并没有像过去那样大肆宣传 GPT-4 模型的具体大小，与之相反的是，它现在更像要故意隐藏 GPT-4 的技术信息。

GPT-2 模型有 15 亿个参数，表现更好 GPT-3 有 1750 亿个参数，比它的前任大 100 多倍。

那么多模态的 GPT-4 模型比 GPT-3 大多少呢？只有 OpenAI 知道。从发布的信息来看，OpenAI 似乎已经不屑于与外界做技术交流，因为它们已经做到了在这领域实现绝对领先。

从目前 GPT-4 的表现来看，它可能是迄今为止最好的多模态模型，在短期内难有对手能将之超越。

就在今天，Google 也公布了一系列与 AI 有关的更新，你可以在 Google Docs 上实现自动排版和自动写邮件。但从人们的反应来看，好像没有人在乎。GPT-4 的光芒几乎掩盖掉所有对手的努力。

如果未来人们只会选择最可靠的 AI 作为生产工具，那么就会形成一个很有意思的现象：越多人使用 GPT-4，它的学习机会就越多，成长得越快，变得更加可靠，最终会让更多人使用它。

这是 Google、Meta 和百度等竞争对手可能遇见的最坏情况。AI 对大数据学习的依赖让人为的努力失去了意义，最终，AI 模型领域可能会形成难以打破的垄断。

Sam Altman 在创立 OpenAI 时有一个美好的愿景：通过人工智能造福全人类。他认为 AI 可以赋予每个人不可思议的新能力，放大每个人的聪明才智和创造力。

这很美好，但如果驱动这一变革的只是一家公司的话，整件事情将变得非常可怕。

点击「在看」

是对我们最大的鼓励

本文地址： https://www.suitangyanyi.com//show-49785.html