纵观历史,1976年到1996年是以PC、个人电脑为代表的数字化20年。1996年到2016年是以互联网为代表的网络化20年。2016年到2036年是以AI为代表的智能化20年。
第一个20年解决了生产资料的数字化问题,第二个20年解决了生产关系的网络化问题,第三个20年一定是解决生产力的智能化问题。
从2016年回溯60年,1956年正是人工智能被创建的一年。那年夏天,一群大师开始畅想人工智能,他们想用一个夏天的时间完全解决人工智能的问题,可惜并未实现。
从1956年到2016年的一甲子60年间,逐渐形成了三大门派。第一大门派是符号主义,将知识转化为符号和规则,让我们大家可以进行逻辑推理,例如证明数学定理和下棋。
随后出现了第二个门派,即连接主义。因为第一个门派无法解决图像识别问题,所以出现了连接主义。他们试图设计人造神经网络,期望在获取足够数据后能够直接进行识别和预测。
前两个门派的研究内容都是大脑中发生的事情,无法与环境互动,因此出现了行为主义。研究在与环境互动的过程中,不断的行为和反馈中是否能形成新的智能。
第一类是剑宗,他们都以为要依靠天才设计出奇技淫巧式的算法,从有限的数据中发现特征,并在有限的算力中反复优化。不用太多算力,可以显得更厉害。于是,他们在螺丝壳里做道场,最终形成了一个个局部的小胜利。
第二类是气宗,他们不太讲究技巧,利用互联网带来的海量数据和摩尔定律带来的算力指数增长,通过暴力美学获得巨大提升。
最终我们得知剑宗一次次小的胜利,最后被暴力美学打败。实际上在最近的20年里,大家都慢慢意识到这样的一个问题,但是看破不说破。直到一位老先生Rich Sutton在他的文章《苦涩的教训》中残酷地指出了这个令人尴尬的现象。
2016年被认为是人工智能的元年,真正集三大主义功力于一身的产品Deep Mind AlphaGo出现,很快就展示了自己的暴力美学。
在AlphaGo出现之前,最优秀的围棋程序是Crazy Stone,然而一位韩国业余七段棋手将其打得落花流水。
2016年1月27日AlphaGo宣布与李世石约战5盘棋。尽管李世石当时面色凝重,但是他并不是特别需要羞愧,他是最后一个战胜AlphaGo的人类棋手,后面的棋手都被横扫。
2017年3月份AlphaGo Master以3:0击败柯洁,当时有篇文章表示这既是人类围棋的噩梦,也是线月AlphaGo Zero横空出世,将人类历史上的棋谱全部扔掉,从零开始训练出的AI,仅用40天就战胜了前面所有AlphaGo的版本,并且达到了人类棋手望尘莫及的等级分。
新一代Alpha Zero不仅限于围棋,4小时训练就打败了国际象棋的最强程序Stockfish,2小时训练就打败了日本将棋的最强程序Elmo,8小时训练就打败了与李世石对战的Alphago v18。
再往后,Alphago Zero甚至开始玩竞技游戏,如星际争霸等。这时候又出来一家小公司,有样学样用类似的方法打败了Dota的人类冠军,这就是OpenAI。
伊隆·马斯克不希望AI的霸权被谷歌DeepMind占领,因此他攒了一家名为OpenAI的公司。OpenAI和马斯克掰了之后,迷茫了一段时间。直到2022年11月30日,它成为气宗的集大成者,推出了ChatGPT,被认为是AI的iPhone时刻。
OpenAI的气宗秘籍紫霞宝典称为scaling Law,规模化定律。人工智能分为训练和推理两个阶段,训练模型相当于学习过程,而推理则是应用过程。
训练需要训练数据和算力,例如花费几万张GPU卡,用100天训练出一个模型。当这个模型被部署时,你就能够给大家提供模型数据和推理结果。
第一种是算力有限,制作一个小模型,例如我看到的数据是下图中的小蓝点,奢望用一根直线逼近这一些数据得出一个小模型,这种小模型是失真的。
第二种思维方法是根据规模较小的数据设计出来复杂的模型,常常就是想多了,数据一多,发现更简单的模型反而更准确。
第三种情况是随着数据和算力变大,训练越来越慢,因为每一次迭代都要把中间结果数据搬来搬去,搬运数据的时间反而超过了计算的时间,浪费了算力。
Transformer模型的出现真正打通了算法的任督二脉,解决了充分并行的问题。这样算力慢慢的变大,可以喂给它的数据规模也慢慢变得大,生成的模型也慢慢的变大,智能不断突破。
当模型达到某些特定的程度时,智能就涌现出来,于是形成了规模化定律Scaling Law。最后训练出来的语言模型GPT通过部署变成聊天机器人程序ChatGPT。
GPT的训练分为三个阶段。第一个阶段是预训练,类似于一个懵懂的孩子闯入藏经阁,开始不断学习全世界的知识。今天我们大家可以喂给算法数十万亿个token(词元),相当于一个过目不忘的天才每天阅读12个小时的书,每分钟250个单词,10万年才阅读完。
第二阶段如同邀请家教,在专家的督导下精心学习。第三阶段开始基于反馈强化学习,这时不单单是靠专家指点我,而是我已经学会了什么是好,什么是坏,我可以不断地精进。
提示词是ChatGPT最好的咒语,咒语念得好,推理结果就好。提示词通过语言大模型可以不断地预测生成下一个token。因此我们今天将其称为生成式的AI,简称AIGC。
AI教父杨立坤则认为,人类的知识绝大多数与语言无关。因此,AI应该是生成多模态,而不单单是语言。所以,MidJourney就不是预测下一个token,而是下一个像素。Sora则是预测下一个时间/空间的像素块。
著名物理学家费曼曾说过,凡是我不能创造,就不能理解。生成式的AI是通往理解世界的一条新路。在具备生成能力之后,我可以把多模态数据输入模型,反过来形成文本的理解,从而形成理解能力。
AI既能够生成,又能够理解,就形成了交互能力。GPT-4o就具备了边看边听边说的实时交互能力。它的秘密是端到端、多模态的大一统模型。
原先的解决方法是语音和视频分别通过一条链路变成文本,然后再处理文本,再生成语音。在这样的一个过程中,语音中包含的情感信息和视频中包含的周围元素信息变成文本后全部丢失。
但是GPT将这样的一个过程转化为端到端,一端语音和视频完全无损地进入多模态模型,另一端直接生成语音。
3.应用从短时长的情感陪伴、聊天开始,最早激发了媒体和游戏,然后在生产力领域(编程和设计),逐步走向长期陪伴、严肃2B应用
4.单点任务能力达到人类95%以上水平,复合型业务还需要人来做拆解和整合,是否能在1、2年内有所突破会影响未来的使用。
具身智能是智能系统或者机器可以通过感知和交互与环境进行自主互动的能力,为什么需要这种能力?
首先躯体对生物进化很重要,寒武纪智能大爆发的原因之一正是生物进化出的眼睛能感知环境。他们也进化出更加可靠的躯体以生存。人类在不断与恶劣环境的交互和运动中形成智能进化。
人的小脑中有690亿个神经元,它们先解决了运动问题,然后才发育出来大脑皮层,大脑皮层只有160亿个神经元,大小脑的协作逐步进化出人所有的智能。
事实上,人天生是要不断运动的,让人不动就需要前额叶不断地发指令说不要动,这会导致大脑的认知负荷的增加,反而不能集中精力学习。
再比如义肢虽不是身体的一部分,但是因需要靠义肢协同身体运动,在这样的一个过程中会产生具身感,即身体与环境的交融感知,让人认为义肢是自己身体的一部分,义肢受击会产生疼痛感。
在科幻小说中超级智能虽然是数字的,仍需要具身的机器人来帮助控制物理世界,因此Matrix有机器章鱼,天网有T-800终结者,“我,机器人”里的Vicky有NS-5型机器人。它们在统治虚拟世界之后仍然希望进一步控制现实世界。
最近网络上有人质疑人工智能的方向是否错误。原本我们期望人工智能让我们洗碗、扫地,这样我们有时候可以写诗、画画。然而,今天人工智能开始让我们写诗、画画,而我们只能够洗碗、扫地。因此,我们要开发出来真正能洗碗、扫地的具身智能,才能线.具身智能的运行逻辑
传统机器人可能仅会控制,但是有一定反馈。例如达芬奇的手术机器人完全依靠人眼观察和遥控,形成一定的手感,这就有了初步的控制和反馈。
最完整的反馈链路中感知很重要,如同人面对镜子练习跳舞一样,通过观察清楚自己动作是不是到位,来不断调整和优化。Kuka机器人与世界冠军波尔之间的乒乓球大战被誉为机器人历史上的最佳广告,虽然比赛未必真存在,但是我们正真看到具有完整感知到控制到反馈能力的机器人是极其惊艳的。
比规划更高级的是决策,决策需要一个任务目标,将任务目标的what转化为决策规划的how,再转化为控制,这很重要。在这样的一个过程中还有必要进行评估,评估每个动作是向好的方向前进还是向坏的方向前进,这样就能够最终靠反馈来调整。
第一个伙伴是秘书,他负责你与虚拟世界的所有交互。未来你不需要手机上十几个APP,只有一个agent智能体,或者是你的代理人。这个智能体负责你与虚拟世界的所有接口,购物、出游攻略、订机票、甚至一些公务来往都可以靠她。
无论是人工驾驶还是系统驾驶,我们都称之为智能驾驶。我将驾驶细分为左边由人负责、辅助驾驶,右边由系统负责驾驶。
系统负责驾驶中最大的圈叫无人驾驶,即车里没有人。无人驾驶有一小部分在左边,即有人远程遥控的无人驾驶。
第二件事是特斯拉AutoPilot上市,成为第一个面向大众的智能驾驶产品。
这时候带来的好处有很多,你们可以想象一下,通过摄像软件模块知道雨量变大,马上可以通知天窗和门窗软件模块:下雨了,你赶紧把窗户摇上去,同时通知导航模块:赶紧换一条路,不要那么泥泞的路。还可以通知刹车模块进入到湿滑模式等。这样一个中央集权的全局智能,也产生了很多新的模式,因此软件定义非常重要。
最后,跟着时间的发展,算力也成为了一个基础设施。2021年蔚来推出了一款车,它具备1016tops算力,即每秒1016万亿次计算。当时有人开玩笑表示这辆车晚上停在车库里,可以挖掘比特币。如果未来所有车都能够联网,那么将形成巨大的超级计算机。这个超级计算机的算力是今天最强计算机算力的几十万倍。
实际上,8年之后我们想象的目标并未实现。马斯克今年又放出了一个大炮仗,他表示在中国的良辰吉日8月8日推出真正的Robotaxi。然而,马斯克从2019年就开始这样表述,2020年、2022年、2023年都在年底,每年都说今年年底会来,但是一直没来。
如上图所示,四象限中下面是非关键任务,上面是关键任务,左边是虚拟,右边是物理世界。
例如与小冰聊天时,它是虚拟的非关键任务,胡说八道都无所谓。人脸识别可以是非关键任务,识别错误也无所谓。如果刷脸付款,它就逐渐变成关键任务。
虽然从登月派领袖Waymo的各种数据中我们觉得他们很了不起,1.7万英里一次接管,按我们平时开车来看,得1年多才出一起事故。但是问题是现在,意味着获得一个新数据的成本过高了,我得开1.7万英里才获得一个新的数据。
同时,1.7万英里一次接管,离美国人还是有差距,美国人25万英里出一次险、50万英里出一次警,150万英里有一次致伤,9400万英里才有一次致命。
什么叫大数据统计意义呢?比如说2016年特斯拉车主打开Autopilot出现了一次致命事故,特斯拉的博客给自己辩解说:你看看我开了1.3亿英里才是撞死了一个人。人类是9400万英里撞死一个人,我不是已经比人强了吗?
兰德公司做了一个数学模型,引入了一个概念叫置信度,假设你要有95%的置信度证明无人驾驶比人安全20%,那需要110亿英里来去证明。而110亿英里什么概念呢?1000辆车不吃不喝不睡不停地开要开 50 年才能完成一次证明,所以这几乎是不可能的。当然,特斯拉如果有 200 万台车,他只需要不到半年就能够实现这个证明。
但是大数据有时候是会骗人的,你们可以看到2021年二季度Autopilot打开的情况下441 万英里发生一次撞车。未打开的情况下,205万英里发生一次撞车。
我们似乎可以马上得出一个结论,打开Autopilot果然好。但问题是:第一,这个441万英里是人再加上辅助驾驶一起获得的成绩,并不是只是辅助驾驶带来的;第二,打开Autopilot在高速和环线的场景上一般比较简单,没打开的时候在城市的一般比较复杂。
我们从汽车行业出来再看机器人,会发现这两者有不解之缘。本田做了一个机器人叫ASMO,因为他们有一个设计师从小迷阿童木,所以他做了一个人形机器人。波士顿动力也以机器人著名,而它曾经属于丰田,现在属于现代汽车旗下。当然最近的是特斯拉的擎天柱人形机器人。
为什么汽车厂跟机器人有不解之缘呢?因为机器人对汽车制造商来说,代表着更难更高层面的挑战,同时又能利用汽车的工业体系和供应链。
Robot这个词源自捷克语,有强制劳动和奴役的意思,但是它不代表Robot一定是人的样子。而真正英语当中描述人形机器人的词是大家熟悉的另外一个词——Android。没错,安卓才是真正代表人形机器人的词。
但是这样一个机器人就要40万美金,其中一个底盘3万美金,一条胳膊4万美金,一只手1.5万美金,可是里面真正跑算法的两个CPU才几千美金。所以它贵是贵在机械部件等方面,而这些机械部件不像电子部件,它是没有摩尔定律的。
罗德尼布鲁克斯是研究机器人的科学家,作为扫地机器人iRobot的创始人,他在商业上获得了成功。他又做了一个协作机器人公司Rethink Robotics,这个机器人公司没几年时间就拿了几亿美金,但是又很快倒闭了。倒闭的缘由是过于激进的降本导致精度和稳定能力下降,从而不足以满足协作场景中实用性的要求。
现在是2024年了,跟2016年又有什么不一样呢?我想硬件跑在前面,第一就是零部件的精度提升、速度效率的改善,成本的大幅度降低。第二个是轮式或者小型四足双足的机器人慢慢的开始规模化的生产,比如机器狗。第三是传感器和算力在提升。
软件这一块,特别是深度学习、强化学习,再加上大模型的认知理解和多模态的交互,2024年的机器人技术和商业化条件已经极大改观。
同时,基于我们对机器人通用性的要求,人形是最佳的,与这个社会集成的成本是最低的,也最容易被社会接受的。更重要的是,人的行为模式为机器人提供了学习的无限数据。
下身是腿负责移动,那么腿到底是四足还是两足?四足机器人的稳定性、平行平衡性更好,成本更低,十分适合户外,但是不适合人类的环境。目前两足机器人的腿可以设计成人腿的样子,也可以像鸟腿。但是无论是像人腿还是鸟腿,它都是弯的,这是为越来越好的平衡,更好去控制。有必要注意一下的是,一个机器人为了保持静止的站姿,也是消耗能源的。
基于Transformer的算法,把人类操作分解成上千个小的动作序列,生成准确而平滑的动作轨迹甚至提取到人动作的风格,是果断、用力还是轻巧、小心,学习15分钟或者50次,就能够形成一定成功率的自主达成目标的能力。当然,虽然视频看着很惊艳,但实际成功率还不算特别高,就拿Mobile Aloha来说,目前“烹饪虾” 40%的成功率,“清理溢出红酒”95%的成功率,“开橱柜放锅”85%的成功率。
这就涉及到机器人当中的一个恐怖谷理论。随机器人越来越像人,人们对它的喜爱是增加的,但是到了某些特定的程度的相似性后,人们的喜爱度就开始下降了,觉得对方像僵尸,一直到你分辨不出来是人还是机器人的时候,喜爱度又上升了。
如果像人,机器人要面临一个很重要的问题是情商、眼力界。有人说最好的机器人是集和珅的察言观色,以及纪晓岚的风趣幽默于一体。当然这里面就需要机器人的五感能力、情感识别的AI算法、做到英式管家的眼力界,并且有恰如其分的情感反馈。
那么,我们距离一个真正可商业化的通用人形机器人多远?我认为还很远,应该还有5 年到 8 年的时间。
当共享出行成为主流,未来的某一天,你的车在你需要的时候自己用,不需要的时候在外面跑,晚上还能自己停到停车场,这样就解决了停车的问题。
自主驾驶还会激活零售业,记得我大学时期晚上出校门的时候,没有星巴克,有煎饼果子、臭豆腐等等,但是未来有了自主驾驶以后,你可以每时每刻把这样的美食车叫到身边来。每一辆车都可以是一个移动的餐厅、移动的办公室、移动的棋牌室。你要买鞋,又为自己的脚非标而烦恼,那么鞋店可以开到你家门口。你在景区突然内急,一辆无人驾驶的厕所可以从天而降。
你坐着一辆无人车去一个风光宜人的地方,到了目的地,车辆安营扎寨,底盘自己开走了,这用古人的一句诗,停车坐爱枫林晚,特别贴切。
但是,GPT能学习数十万亿的token,一百天就学完了。人就算过目不忘,在大多数情况下要 10 万年才能学完这么多东西。机器用100天就能进化一代,因为每一个终端都在获得数据,这一些数据汇聚到一起能够更快地进化。但人进化得特别慢,长达数万年或更久。
第二种可能性是Scaling Law撞墙了,可能会大量的投资没办法回收,股票大跌。这样一个时间段我们假如没有100%的AGI,0.9版的AGI有没有应用场景?大家都转向去找应用场景去了。
第三种可能性是Scaling Law还在,但是能源变成了瓶颈。比如3万张H100训练100天,要花费上亿度电,要知道上海整个城市一天的消耗是5亿度电。所以大家就会寻找可控核聚变等等,寻找新的方向。未来几年就这三种可能性,我们大家可以拭目以待。
我们可以畅想一下,AGI会不会瞬间跃迁,成为超级智能?会不会产生自我意识?是否会遵守机器人四大定律?有没机会具有“善”的价值观?是不是只有一种价值观?是AI的价值观还是AI创造者或拥有者的价值观?
第一,孩子们的体魄要一定非常的强健,具身智能是跟人的身体相关的,注意力能长时间的集中是很重要的。