对话中国AI“扫地僧”，解析大模型产业应用的当下与未来

伟铭 2年前 (2023-06-16)

大模型产业应用的当下与未来

自2022年底，ChatGPT横空出世，让世人看到了通用人工智能的曙光，大模型就成为了创业圈、创投圈最热的话题。

如今，中国的大模型创业者已经集结在十字路口。他们之中既有研究自然语言理解、计算机视觉、机器人等领域将近40年的科学家，也有已经功成名就的前创业者，还有刚刚博士毕业的年轻人。创业者们在各个层面展开竞争。

为此我们发起AI大模型系列直播【探索AI大模型时代引领AIGC新浪潮】，本系列直播共5场，主要从大模型应用场景、元宇宙标准、大模型在tob、toc领域的应用等方面，邀请国际、国内AI领域方面的重量级嘉宾为大家深度解析大模型的当下与未来。

哪些领域、行业能够实现大模型产业化应用？为什么具身智能将是AI的下一个热潮？如何看待大模型与小模型的争议？为什么“感知”是机器人技术发展的一个重要瓶颈？

本期直播，杨磊和王湘云带来了重磅分享。

杨磊系南京清湛人工智能研究院执行院长、清湛智造科技CEO、中国人工智能协会专委会委员、江苏人工智能协会理事、清华大学计算机科学博士，长期从事人工智能技术在智慧城市、智能制造、机器人相关领域的工程性技术研究。

南京清湛人工智能研究院由清华大学人工智能研究院院长、中国科学院院士、俄罗斯自然科学院外籍院士、CCF终身成就奖获得者张钹教授领导的团队，依托清华大学人工智能研究院，结合多个资本方联合打造的高端应用研究院和高能级产业创新平台。盛景是其发起者和投资者之一。

王湘云系盛景嘉成基金管理合伙人，主管盛景人工智能/元宇宙/产业互联网/企业服务/SaaS赛道，以及盛景海外母基金（美国/以色列）的投资；在加入盛景嘉成之前，历任清华紫光股份企业规划部总经理，SAP ERP咨询服务事业部总经理，博彦科技高级副总裁。

以下为精华内容整理，enjoy ~

▼

一、您在人工智能产业应用领域有哪些布局和积累？清湛当前以传统智造围绕数改智转作为发力点，您对科技和产业结合有哪些落地的思考？

杨磊：

通常每一次新技术革命的来临，制造业都会受到最大的冲击和技术迭代。但实际上，本轮以人工智能、数字化、网络化为代表的技术革命给制造业产业带来的变化，尚没有我们想象的那么巨大。

我每天在走访不同的工厂、看不同的生产线和生产工艺，感受到这次人工智能变革有三个困难点：

第一，一般性的人工智能技术很难直接用在在制造业落地中。生产制造对系统的准确性、可解释性、可重复性有着较高的要求。以概率计算为基础的人工智能技术在落地过程中，除了少数应用，绝大多数情况需要深度和领域知识结合。

第二，制造业是数百年的行业，本身具有垂直领域的特殊性。无论是做电池、做汽车、做食品、做服装，垂直领域已经积累了大量手工或半手工的经验，和人工智能方法方式结合时，会产生很多理念和方法上的碰撞。

第三，在人工智能技术发展中，我们还处于一个初级阶段。还缺乏成熟有效的知识体系和工具体系去支撑现实生产制造所遇到的实际问题。

从总的行业背景来讲，我们一直在谈工业4.0或者是第四次工业革命的概念。事实上，这个概念随着技术发展在不断衍生。在最早基于工业4.0原理的新制造模式里，提出一个概念叫智能制造。智能制造系统构建的思维方式是建立在物理-网络生产系统的过程中，所以产生了数字孪生、产线数字化，也诞生了知识的涌现、自组织、学习、开放创新等核心概念。

但事实上这个概念在当时提出的时候，并没有什么很好的解决办法去解决生产中的所有问题。而现在回头看，我们在过去十年、二十年前提出来的理念，逐渐都已经找到了答案。当前在一些产业化的行业里，逐渐往工业5.0靠拢，也叫做自适应的认知制造系统。这个系统的基本构架模式，实际上融合了当前的认知技术和人工智能技术的新范式。

在制造业里，无论做产业数字化还是虚拟工厂，本身都是想解决一个问题——把生产工艺过程当中最不确定性的部分减少或者迭代掉。所谓最不确定性的是，人——工人参与到生产中，最重要因素是人本身。

如何把人的不确定因素降低？我们希望通过智能化的机器来替代人。围绕这一点，可以做几个事情：

第一、围绕着感知去做。代替人去看、去听，代替人的触觉、嗅觉。

第二、围绕着数据去做。在产线上，组长和班长每天去看各种情况,通过收集的数据形成综合判断,知道产线和工厂的情况，这实际上就是计算过程。但是由于产生的数据量太大了，从不同的信息中逐步提取数据，对工人的要求会比较高。所以我们现在提出了智能边缘计算的问题。

在深度学习时代，工业数据获取和处理带来了巨大压力。传统软件的交付模式是源代码或执行代码。而在当前基于智能制造语境下，基于深度学习或者大模型的系统需要交的是代码加上数据模型。但是，模型在人机料法环变化时又会产生巨大的衰退。这个解决方法就是当前比较热的MLOps理念。新的技术和方法只有工具化，才能为更多的场景服务。

第三、围绕着执行去做。有一个明确决策之后，如何快速、准确执行？这就产生了智能工业机械手、智能化的集成应用、智能产线大脑这些理念以及机器人仿真、传感器仿真等新的技术需求。

围绕产线智能化，基于深度学习和训练大模型，把集成机器学习、工业智能等技术融合在一起，面向工业的高频场景产生相对的解决方案，会产生巨大的需求。

二、具身智能被认为是AI的下一个热潮。字面意义来讲，具身智能，即Embodied Intelligence，有身体并支持物理交互的智能体。您怎么看待具身智能？

杨磊：

具身智能不是一个新概念。上个世纪五十年代，图灵在一篇论文中提出，想做一台和人一样聪明、甚至比人还要聪明的机器。他认为人工智能未来可能有两种途径。

途径一：具有类似下棋所需要的智能。

途径二：具有最好的感官，能学习甚至能说各种语言的智能。

这两种实际上就是非具身和具身两种智能的两种代表性体现。

具身智能简单来讲，就是生物体用眼看周围的环境、用手触摸身边的物体、用耳朵听到环境的状况。非具身智能则主要聚焦于智能计算，比如符号主义、物理性交互，不需要考虑具体形态，专门玩一些比较抽象的算法。

随着ChatGPT、AIGC的兴起，类似工业接手、商场里的移动机器人、送餐机器人等机器人的智能化水平已经远远不够。

如何让这些机器人有更大的智能？

第一，理解一切环境。其次，可以执行一切事情。

大模型的出现，让具身智能成为了可能。通过一系列大模型的手段，把视觉语言、语言加视觉模型组合起来，训练一个多模态模型。

具身智能最好的体现就是智能AGV这种应用。中国是全球最大的工业工程市场，未来全球会有一半智能AGV落地中国，会产生巨大的需求。

三、据不完全统计，参数在10亿规模以上的大模型全国已发布了79个。特别是在自然语言理解、机器视觉、多模态等方面，出现了多个在行业有影响力的AI大模型。除自然语言处理模型之外，还有哪些领域、行业，是能够实现大模型产业化应用的？

杨磊：

大模型是生成式人工智能的一个最基础、最核心的工具。因为大模型新的技术方式，让以往基于深度学习的训练模式，往前走了一大步。但围绕这个概念，实际上是有很多新工具产生的，包括提示学习、思维链等。

人类学习和思考的过程，第一步是收集外部的知识，包括看书、看报、看电影、和朋友交谈，通过这个过程，我们反复在脑海里思考一个话题或者一个想法，从而逐渐迸发出新的想法，这是人类的一个思考方式。

作为ChatGPT训练的一部分，大模型基本上吸收了世界上积累的大部分书面信息，这些数据经过模型训练之后，有效的从知识源里获取相应所有的信息，可以逐渐形成新的信息再度训练自己。

谷歌最新的《大型语言模型可以自我改进》的论文中，谷歌构造了一个新的大模型，这个大模型可以自己提出、预测问题，生成答案，同时可以过滤一些所问非所答的结果。经过一些比较精心策划的微调，最后形成良好的效果。

按照这个逻辑，我们可以把大模型的技术应用到任何一个陌生领域，比如说玄学、气象学、药物发现、服装设计等等。大模型可以在玄学典籍上做任何训练，围绕玄学进行初步的知识整理后，可以通过训练数据生成新的训练数据，再进行改善训练。

比如，通过训练模型的方式，华为团队把传统数字天气预报的工作给迭代了，传统的数字天气预报时代已经结束，气象预测方式被完全改变。

王湘云：

我认为，人工智能也好，大模型也好，它所具备的学习能力和认知能力，可以赋能给各个行业。

所谓通用人工智能就是，底层的认知能力可以具有通用性，可以适用不同的任务。大模型把人类的能力进行了泛化，形成了可迁移的这种能力，被认为是通用人工智能的曙光。

给大模型一个目标性的任务，它能够根据自主分解成一些单元的任务，然后任务按时序、逻辑进行组合，然后集成，最终完成一个更复杂的任务。这些实际上都是一些通用智能的展现。

通用智能未来有极大的机会会应用在各行各业。首先在数字世界进行突破，应用在和文本、数字处理相关的互联网、搜索、电商、金融投资、医疗法律、教育等等行业，

最终一定会过渡到数字世界和物理世界的融合，在工业、制造、服务领域，大模型或者人工智能帮助机器更好理解多变的现实世界，在理解和认知的基础上，根据任务进行规划、执行、整合，最终实现任务，用智能化的手段，来解决物理世界的文化，去改造物理世界，实现更高的生产效率，最后改造整个世界。

四、有人认为，只需不断扩大模型，使其更通用，最终可以做任何事情。而另一方面，有人认为，只需专注于小型模型，针对你正在尝试的特定事物进行目标定位。这可以高效地完成任务，无需等待大规模通用化。您怎么看？

杨磊：

模型大小主要围绕模型参数来定义，这个阶段消耗了整个训练过程的90%以上，最为耗时耗钱。如果数据准备好的话，理论上大模型可以完成一切任务。但从训练的成本来讲，大模型不是一个普通企业或者普通人可以完成的。围绕着模型增强学习过程，包括有监督的微调过程，实际上是可以逐步面向特定领域的。

当比较“大小”的时候，我们可以对比笔记本发展历史。当前一个笔记本电脑和一个T的硬盘，基本上是标配。二十年前，当时觉得存储是世界级的魔幻问题，一个T的硬盘就是人类的梦想。

随着摩尔定律的发展，未来随着计算成本越来越低，算力不断提高，模型方法逐渐优化。因为收集所有数据的训练成本非常高，如果要解决具体问题，可以聚焦在某几个专业领域，这样整个模型的训练成本会急剧下落。在研究过程中要考虑到通用问题解决，同样也要考虑到专业问题的解决。

从模型的描述来讲，模型越大，对细节问题的处理不如专门的小模型来得好。就像对于小学物理习题集，很多大学者、大专家可能未必有一个小学老师解得好，这是人类知识发展过程中的一个现象，在模型训练过程中也是类似。聚焦这个领域的细节颗粒度越小，问题的解决完成度越好。

当然也不是这么绝对，因为现在很多学者在围绕无所不知的通用模型做努力。OpenAI打造一个通用的人工智能模型解决一切问题，而且在特定领域也逐步获得了比较好的结果和价值。

总的来说，从技术发展来讲，大是不是好？这个现在已经有结论了，大肯定是好。但是大是不是比小模型更细？到现在为止可能还不够细，但是在未来可能会有突破。这是我的个人观点。

五、李杰教授在《工业人工智能》一书中，明确工业人工智能与通用人工智能有着巨大差异。有一个有意思的的例子是，李杰教授认为在过去的10年、20年里，所有的人工智能学者都是以一个机会主义者的面目出现的。为什么叫机会主义呢？那就是研究人工智能时，在不确定中尝试去解决一些不确定性的事情。问题是这个世界并不是那么美好，所以就导致我们只能“拿着手里的锤子去找钉子”。

您认为本轮ChatGPT为代表的大模型的发展会改变 “拿着锤子找钉子”的局面吗？

杨磊：

在人工智能技术发展的历史当中，从业人员一直是在寻找自己的价值定位，也就是做这个领域对社会能够有什么贡献？过去五十年，或者六十年里面，一直遇到各种各样的困难，我们力图寻找一些通用型的方法，找到市场上高频率的问题去解决，但是这确实很难找到。

李杰教授是最早提出来工业人工智能理念，他把商业人工智能（通用人工智能）和工业人工智能区分开。李杰教授认为，工业人工智能确定性或者可解释性比通用人工领域要高。

每只鸡都以为是自己把天叫亮了，实际上天亮的时候鸡才去叫。大模型的发展也是过去多年整个行业共同努力的结果。只不过到今天，以ChatGPT为代表的、面向场景的应用出现了，解决了一些有用的问题。这个时候，这个技术才展现它的生命力和价值。我们要努力做那个把天亮这个事情第一时间感觉到的鸡。

在发展的不同阶段会出现不同问题，在初始阶段一定会有大量的人拿着手里的锤子去找钉子。发展到后一阶段，就会有逐渐的钉子冒出来，迎合各种有用的锤子，这种现象在很多技术的发展过程中都会出现。因为在早期是拿着锤子找钉子，一旦发现你手里真的有把大锤子可以敲所有钉子的时候，可能所有的钉子就要开始顺应你敲的方法去生产。

这就是发展中技术和人类社会相互作用的过程。

王湘云：

一个产业的技术和发展阶段密切相关。拿锤子找钉子，在各个行业当中都存在这样一个阶段。

就软件行业来说，原来的软件是一种垂直型软件，一个软件解决一个具体功能问题，缺少可拓展性，这就是软件早期的发展状态。随着产业进一步的优化，软件产业开始分层，底层更多平台性的软件开始出现，形成一种更完整的生态。

平台性的软件解决的是底层通用能力问题，这样很多创业者、企业也好不用再开始从零到一的开发，可以基于通用的能力，很快开发适用于场景的解决方案。

整个生态因此发生了变化，更多的通用能力被抽取出来形成服务。正是因为这种服务，使得它具备了非常好的经济效益，性价比更高、效率更好、专业度更高、部署更快。

人工智能也必然会经历这样一个阶段，早期因为平台化、通用化和泛化的范围不够，解决一个具体的智能场景，需要从底层开发一套专用于这个场景的方案。所以我们看到早期人工智能缺乏的AGI、通用人工智能的部分。

但是，大模型给了我们希望，使得训练出来的模型，可以解决很多基础性、共性的推理问题和生成的逻辑问题等等。

在这个基础上，未来人工智能的开发可能利用大模型的平台能力，现在也许是50%、60%，但未来随着大模型越来越完善，可能会达到80%、90%。再根据特定的场景和能力优化20%、30%，甚至随着通用能力的越来越强，未来这个比例再缩小到10%。

这是每一个行业发展必然经历的过程。从软件服务的角度来看，云的发展已经经历了从垂直到通用的过程，人工智能也是。

大模型的出现，给我们提供了一个里程碑式的能力，让人工智能的能力可以通用化，可以更快地在通用人工智能领域部署更好的人工智能服务。

六、您对AI教育是怎么样的看法？

杨磊：

人对于一个系统的评价是多元化的。比如对于GPT4，有人认为它的计算能力很强，有的人认为它的推理能力很强。

反过来谈到教育，如何评价一个学生学得好？实际上到现在为止，我们的教育方式还是基于启发式教育模式，比如拿一本书灌输给他，不停问你会不会，你知道这个吗？你知道那个吗？

但实际上，被教育的对象是完全不同的。有的孩子不用教他背古诗，因为从小就已经教过了；有的孩子通过看了一个动画片，忽然对数学物理化学非常感兴趣，不需要你主动告诉他为什么要学习这个，他已经产生了自驱动力。

大模型应用可以提供一个具有高度知识密集、高度计算密集的工具，可以赋能给教育。大模型支撑的系统和学生进行一些简单问答后，就可以快速了解学生学习过程中遇到的问题在哪儿，哪些知识点不足，学习方法、思考的路径会有哪些问题？

这样会大大降低教育的成本、提升学生的学习程度，甚至可以通过大模型的方式真正达到孔子说的“有教无类”，即按照不同学生的需求形成不同的教育解决方案，满足不同的学习路径，未来这是对人类整个教育体系的重大推动。

王湘云：

大模型会带来整个教育载体和形式的升级。未来文本信息跟多模态信息的结合，包括语音、视频、图片、甚至未来更多感官信息的结合，可以全流程形成教育模式和范式的升级。

原来学习更多是比较抽象的过程，同时千篇一律，老师很难服务到每一个学生进而提供个性化、定制化的服务。

但是，有了大模型以后，大模型底层的认知加上计划、整合、工具等等形成的完整能力，每个学生未来都会有一个自己的学习助理，或者叫AI家教，它会根据学生的情况，感知学习状态和学习成果，围绕不足和问题，优化或者定制针对每个人的特定解决方案和学习内容。

未来的学习内容会更加丰富，而且形式一定是更加交互式、多媒体、多模态势的，结合元宇宙的技术，可以把理论和应用场景、现实生活更好地结合起来，更加栩栩如生。

因此，我认为教育一定会被彻底改变。

七、5月29日，OpenAI创始人之一，技术专家Andrej Karpathy，提出了一个前沿且有想象力的观点——”软件2.0”（基于神经网络的软件设计）。他认为今天所有的软件代码都值得用神经网络改造一遍。您对于这个观点，怎么看待？

杨磊：

这个观点实际上在2017年的时候Andrej Karpathy就已经提出了，但到现在才逐步开始被接受。

这个观点主要是讲在所有软件里，如果除去开发界面的工作，大部分的工作是围绕数据处理、加工、决策在做。事实上，很多数据处理、加工已经可以需要人类干涉了，完全通过自动化工具完成。围绕着决策做的事情，可以用很多深度学习工具来解决，不需要人工判断的模式来做，完全靠训练模型生成一个决策结果。

现在技术，比如视觉识别、语音识别、语音合成、游戏内容生产等等，完全可以通过新的生成式人工智能的算法再次迭代。另外，也不需要类似传统软件的开发模式——按照预定系统模式（各种语言的语法）做编码，预定模式完全可以通过系统自动生成。写一个软件框架，就可以让它按照指定的语言编写出来。

这样的好处一是过程更为简单；第二利于形成集中化，第三计算时间会更为精确。

八、伴随着“多模态大模型”的发展，机器人技术会否迎来突破性的发展，从而加速在行业/企业当中的应用？

王湘云：

多模态是为了更好让我们感知世界，只是通过文本理解远远不够，叠加语音、视觉、触觉、温度等等，对环境的认知和维度会更加全面。所对应的，形成人类的认知记忆或者认知烙印的维度会更加丰富。

多模态会对人类的感知带来更丰富的数据，拓宽认知所需要获得的信息维度。

但是，未来人工智能不一定完全复制人类现有的这种方式感知世界，或许有比人类多模态感知更好的路径来完成任务，并不需要把所有的信息都收集出来再进行处理。

所谓机器人，有的时候不是模仿人，只是说在某种事情上是一个任务主体。我认为未来所有的机器，背后都会有一个智能的大脑来支撑。如果没有智能的支撑，就不是机器。

从这个方向来看，未来一个重大机会，也是人工智能一个重要方向，就是怎么样让未来的产业机械化。

九、您一直以来从事“人工智能技术”在智能制造、机器人相关领域的工程性技术研究。您有一个观点：“感知”是机器人技术发展的一个重要瓶颈。这个怎么讲？

杨磊：

有个著名美国心理学家表示，在过去五十年里，生物学发展太慢,对人脑的剖析远远不够，导致人工智能发展缓慢。因为，我们一直通过设计一台机器去模拟人类的行为，但实际上，人类对思维和感知的生理过程了解得非常少。

现在的计算机视觉领域，主要是基于马尔的视觉计算理论体系做了大量的工作。但是这个计算框架这是人类想象出来的，不是生理上真正过程。实际上高效的感知过程，到现在为止可能人类还没有真正接触到它的任何门槛。

人类不仅仅靠视觉感受社会、了解社会、执行动作，闭上眼睛的时候一样能感觉到周边的事物。机器在未来也会这样。多模态不仅仅是讲视觉、理论、触觉等方面的多重组合，也是很多数据源、多维度数据等组合。比如一台智能的机器可以把不同风向，包括温度、湿度结合在一起进行预测，需要多种数据来源综合提供给知识的承载和行动的决策模块进行处理。从未来机器人的发展来讲，感知会是一个长期话题。

这也是很多人喜欢人工智能这个行业的原因。大家没有一个完全统一的命题和答案。而且随着机器越来越聪明，智能化的标准也在变化。未来对智能的要求评价体系会越来越高，可以替人类解决更多问题。这可能会更好诠释阿基米德讲的那句话，给我一个支点，我就能撬动整个地球。

作为从业人员，我希望这个行业能够进一步地快速发展。在可视的未来，能获得更多具有价值的成果，给社会带来更多的价值。

十：单独使用大型语言模型或者将视觉、语言、视觉 - 语言模型组合起来使用似乎都给机器人提供了很大的帮助，那如果直接训练一个更大的、单一的大型多模态模型呢？

王湘云：

人最重要的是规划能力，我有一个目标，虽然有相当的时间跨度和众多参数的不确定性，我怎么样通过规划的能力、任务分解的能力、使用工具的能力，不断试错、纠正、迭代、推进，最后达成目标，这是人类最牛的能力。

能够学习；能够进化、迭代；能够规划，把一个复杂的任务分解成若干任务，一个任务可以协作完成，我相信，未来会有一天，大模型能够具备这样的能力，拿到通用人工智能的最高圣杯。

文章来源于微信公众号盛景新经济，作者盛小景，本站经授权转载，版权归属原作者

最后，记得关注微信公众号：镁客网（im2maker），更多干货在等你！

镁客网

科技 | 人文 | 行业

微信ID：im2maker

长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

对话中国AI“扫地僧”，解析大模型产业应用的当下与未来

文章来源于微信公众号盛景新经济，作者盛小景，本站经授权转载，版权归属原作者

最新文章

注册

对话中国AI“扫地僧”，解析大模型产业应用的当下与未来

文章来源于微信公众号盛景新经济 ，作者盛小景，本站经授权转载，版权归属原作者

最新文章

登录

注册

文章来源于微信公众号盛景新经济，作者盛小景，本站经授权转载，版权归属原作者