2025 IDEA大会沈向洋演讲实录
大家早上好!非常高兴今天有机会在深圳福田欢迎大家来到2025 IDEA大会。我今天特别感慨,这几年IDEA研究院在深圳不断发展壮大,得到了很多领导的关心,也得到很多朋友的关注。开会前也见到不少老朋友。
今年想借这个机会梳理一下过去五年在IDEA研究院做过的一些工作。我们每年在11月22日举办IDEA大会,在深圳发布项目成果、实践案例,系统地整理我们对于人工智能和数字经济的思考,并与大家交流。
IDEA有一条创新曲线,可以看到我们过去做的很多事情。我经常用这条创新曲线来说明IDEA到底在做什么。创新有不同的维度,例如大学做基础性创新、使命型创新,VC做风险创新,但最后整个创新都要推到能够大规模落地、与市场和社会发展紧密结合的阶段。创新总是一步一步来的:从可能到可行、从可行到可用、再从可用到规模化。
真正大规模的创新,大部分资金是在工业界投入的。刚才(深圳市科技创新局局长)张林局长提到深圳95%的科创投入来自企业和产业界,而前面的创新同样非常关键。IDEA研究院正处在创新曲线的甜区。
今天我们处在什么阶段?接下来应该往哪里走?特别是从2022年ChatGPT横空出世以来,给所有人带来巨大的冲击,逼着我们重新思考当下的智能以及未来的智能。
智能演进的图,各个机构都画过,虽然细节略有不同,但全球这么多团队在做探索,本质上都是类似的路径。
讲AI总会说三大要素:算力、算法、数据。我今天想从这三点讲起,再加两点:交互方式和载体。
第一个维度是算法架构。算法和模型最典型的例子,是2017年谷歌发表的Transformer论文。当时大家并没有意识到这篇论文有多了不起,谷歌自己也没有意识到。后来OpenAI做了预训练,推出GPT1、GPT2、GPT3,从那一刻开始世界被改变。最近一年里,2024年9月推出的o1让大家意识到大模型推理能力的巨大提升,而DeepSeek改变了中国大模型的发展,也改变了世界大模型和开源大模型的发展方向。
未来的自主学习在哪里?我们该做什么?我有一些不成熟的想法。很多智能的底层逻辑不是新概念,我们应该重新读维纳的《控制论》。真正的智能与控制论是彻底相连的,强化学习背后的数学也与我们学控制论时的最优控制高度一致,这里面都有巨大的想象空间。
第二个维度是智能载体。最开始我们做的是模拟世界,语言模型从抽象到具体,从虚拟到物理不断扩展。做完语言模型,大家开始做多模态,从声音、图像、视频,甚至到4D。IDEA也做了很多多模态模型的工作,今天也会介绍。
最近大家常听到“世界模型”。世界模型是在多模态基础上向前推进,把物理规律融进去,用模型来理解和探索真实世界。世界模型最终会进入机器人、自动驾驶汽车、飞行器等具身载体。今天也会谈具身智能。
从载体角度看,AI正在从理解世界,进入真正改变世界的阶段。
第三个维度是交互范式。过去七八十年,计算机科学的一个重要发展就是人机交互方式不断进化:从大型机命令行,到图形界面,再到互联网搜索,再到如今的推荐与自然交互。
在模拟世界阶段,AI是被动的工具,类似早期的ChatGPT,问一句答一句,很像传统搜索。但在探索世界阶段,AI会变成持续的迭代循环,会问、会回应,会像在帮你做研究一样。
我们希望未来技术能强大到不只是回答问题,而是能像人类科研一样一步步推进。2018年我在微软做WSDM主旨演讲时讲的主题就是“对话模型”。当模型能归纳世界后,AI将会主动提问、主动执行,再回到人类决策,确保行为不偏离正确轨道。
第四个维度是计算架构。大模型发展让大家最终都谈到GPU、黄仁勋、NVIDIA。我常说黄仁勋每天醒来都在笑,因为全世界都在给他送钱。GPU 2006年开始从游戏图形渲染,变成通用并行计算的核心,也成为大模型崛起的重要基础。
随着智能进入探索世界阶段,我们需要的芯片不再只是训练芯片,而是更多推理芯片、端侧芯片、强化学习专用芯片。这些应用需求非常不同。例如强化学习芯片需要支持大量并行和快速交互;推理芯片需要极高能效和吞吐量。整体算力需求会继续暴涨,而今日GPU能耗对电力系统的压力已经非常沉重。
未来有没有超越冯·诺依曼体系的新架构?最近量子计算有很多突破,也让我们对于新架构有新的想象。
第五个维度是数据。预训练时代之所以发展迅速是因为互联网把大量人类知识集中在网上,供模型使用。但到GPT3时代,互联网数据已经不够用了。互联网上真正清洗后可用的只有几十TB,而且都是静态的教材型数据。
但到了探索世界、强化学习阶段,需要的是动态反馈数据。强化学习要“想法—决策—行动—反馈”完整链条,需要大量动态数据才能真正训练出探索能力。
静态教材像看书,动态反馈像真正下场做事情。比如你不可能靠看书学会骑自行车。未来AI会越来越自主,必须能够提出假设、收集证据,才能提升智能。
数据和智能是互相推动的,没有大数据就没有大智能,没有动态就没有探索,没有验证数据也无法走得更远。数据不是越大越好,质量同样关键。
沿着整个智能演进路线图,我主要想表达一个观点:在每一个阶段都蕴含巨大的创新机会。举个小例子,就是数据。
IDEA最近有一个小团队孵化出一个公司,DataArc团队,他们做的是合成数据。最早方向是解决小语种数据稀缺问题,比如阿拉伯语网上的语料只有4.5TB,不到英语语料的百分之一。训练阿拉伯语模型时存在大量缺口。
今天非常高兴发布DataArc SynData开源框架,帮助做小语种业务的团队大幅提升效率。原来需要2000行代码,现在只要50行。
他们在短短一年间,从两篇论文开始,从数据路由、预训练数据合成,到推理、筛选、模型,全链路工作全部建立起来。也非常感谢深圳支持他们的投资机构,是IDEA孵化速度最快的团队之一。今天他们也在讨论与中东公司的合作。
我是想借此表达一个观点:大家现在对AI焦虑很大,但AI有很多路径可以走,每个国家、每个组织都应该走属于自己的发展路线。AI有两个维度:攀登珠峰,做最大最强的模型;或者修建公路,让更多人、更多场景能规模化使用AI。这是两条同样重要的路线。
除了数据,在模型层面也有巨大的创新机会。大家可能更关注超大模型,但在垂直场景里同样有广阔天地。郭健院长带领团队在金融领域深耕:2021年推出全球最大金融行为知识图谱,2022年Quant4.0,2023年AlphaGPT(投资智能体出现),2024年端到端金融预测模型。从数据提效到垂直场景的深度演进,都蕴藏巨大机会。
接下来进入第二部分:Agent。
Agent是模型落地的重要产品载体。比尔·盖茨在2023年底预言,Agent不仅会改变人机交互方式,还会颠覆软件行业,将带来自键入命令、点击图标以来最大的计算革命。2025年是Agent创新爆发的一年,会在个体、公司、治理和创新等方面产生全面影响。
我们先看一个事实:个体+AI现在已经可以完成过去一个团队才能完成的工作。IDEA思维实验室一位设计师,为一家时尚品牌独立完成一支广告,从调研到策划再到制作全流程,全部借助AI工具完成。这位同事入职前主要是做平面设计,并不是传统意义的“视频制作人”。
生产力决定生产关系。当生产力发生几十倍的跃迁,封装在公司这种组织结构下的生产关系必定发生根本变化。传统公司里复杂任务要拆解给不同角色,用流程衔接,用考核保证质量。前提是单个人能力有限,需要分工才能完成复杂任务。
但当个体能力被AI放大10倍甚至100倍,很多原本需要多人协作的任务都能由一个超级个体端到端完成。企业的核心职能便不再是拆解任务、分配工作,而是如何成就这些超级个体,让人与AI的深度协作释放最大生产力。
组织重心将在部分领域从管理转向“定义问题”和“融合超级个体”。有人开玩笑说CEO是Chief Entertaining Officer(首席氛围官)。但在范式转变下,真正的变化是认知变化:超级个体不是天才的特权,而是普通人的标配。
过去我们都仰望超级个体,就像蒸汽机时代看到能操作机器的工人,或80年代看到会上网的人。到了2025年,会使用AI的超级个体会成为标配。所以我们要问:我如何成为超级个体?超级个体会成为每一个人的未来。
从个体的未来,可以看到公司未来的变化。不论是AI时代新生的公司,还是成熟企业的AI升级,公司都会发生巨大重构。IDEA的CTO工作室作为“产业场景中的顶尖技术容器”,正在推进这方面的探索。
AI Agent在公司中的应用非常丰富,可以把它们看作AI员工,融入现有的人类员工工作流。
在治理方面,政府和机构同样需要AI Agent。比如统计局,过去是人工找数据、整材料、写报告。随着数据库和AI发展,很多工作可以自动化。去年我们发布经济超脑1.0,能理解数据和背后的逻辑。今年我们与南山区政府合作发布经济超脑2.0,实现从提问题、拆目标、相关搜索、汇总到结论的完整流程。也欢迎更多政府机构合作落地。
AI Agent给科研带来的机会同样巨大。AI for Science一直是我们重视的方向。科学的每一次突破都来自新工具的诞生。有了工具,就有可能产生新的科学发现。
去年IDEA发布化学大模型,包括分子、抗体、反应、药物和文献。今年有更大突破,我们的论文登上了《CELL》的子刊封面。今天发布新的药物平台Mozi,它既是AI智能体也是工具箱,可以真正缓解药物早期研发中的误导、黑箱和瓶颈。Mozi具备多智能体架构、专家工具箱和自动化流程。
举例来说,用Mozi设计帕金森病药物:选靶点、生成分子、做筛选、安全过滤,最终能产出候选分子乃至完整报告。这么简洁的输入,就能产出多个接近临床一期质量的分子。
接下来介绍AI Agent在内容生成上的应用。AIGC内容越来越多,但可控性才是关键。比如电影制作领域,如何做到生成内容的自主可控?IDEA的一个团队研发了GPU渲染器SMARAY。这个项目和接下来要讲的另一个Agent项目,都让我很感慨。五年来在福田、深圳市政府和耐心资本的支持下,我们努力让科研成果真正转化为生产力。
大家熟悉IDEA的都知道MoonBit,这是张宏波团队做的AI时代编程语言。计算机历史中每隔十几年都会诞生一个主流语言,从C语言、Java、Python,到过去十几年最重要的CUDA。AI时代的新语言正在被呼唤,AI编程也是确定会爆发的应用方向。2025年大模型落地最愿意付费的就是AI Coding。从OpenAI到谷歌、Gemini都在发力,国内阿里、头条也推出了系统。AI编程的影响堪称对1500万程序员行业的冲击。
三年前我说服张宏波加入IDEA做AI编程。宏波是我所知唯一写出被全球数万人使用编程语言的中国人,他写过ReScript。MoonBit由他带队开发。编程语言核心是开发者生态,我们期待明年MoonBit开发者超过100万,成为主流语言。
接下来,我想谈具身智能和机器人。在深圳讲具身智能意义尤其大。MIT Technology Review最近的封面特别有意思。以往机器人多在工厂里,而现在人形机器人不断出现。那张封面很直白:未来“养儿防老”可能要靠机器人。但关键是:2025年在深圳怎么干?
我常看Gartner的AI技术成熟度曲线。它把所有AI技术按阶段分类。刚起步的有量子之类,持续向上的是具身智能,它还在上升期,机会非常多。顶端是最激动人心的技术,2025年被称为AI Agent元年。再往后,一些技术会慢慢冷却,最后剩下真正有市场生命力的。
大家普遍相信,云服务、卖芯片这些肯定有商业价值。但我想强调的是:具身智能给我们带来巨大机会。因为它需要长期投入、系统协同、工程积累,而且技术栈复杂,包括编程语言等。
以机器人为例,具身智能不等于机器人,但机器人是最好例子。机器人像人:眼睛看、大脑算、手脚动。大湾区正是机电一体化和AI同时蓬勃的地方。黄仁勋去年在香港科技大学和我对谈时就说,粤港澳大湾区在机电和AI的结合上非常像德国和日本,拥有巨大机会。
我们一定要抓住这个机会,做出真正伟大的成果。给大家看一个例子:万物抓取。机器人要从二维感知到三维理解,并可靠抓取不同物体,这其实极难。长尾、小场景、多形态,这是极高难度的问题。
具身智能最难的是“灵巧手”,难度堪称“珠峰”。不是我们自己讲难,马斯克在做Optimus时,把人形机器人生产计划缩小,他说机器人的手和前臂技术占了整个机器人难度的绝大部分。张建伟院士也在台下,他肯定深有体会。
抓取难有很多原因:物体复杂、透明、软体、变形、打扁的易拉罐等等。同时机械手本身还远远不够,人类的手太强了,可以搬箱子,也可以穿针引线;可抓、可感、毫秒反馈。人手27个自由度,2.7万个触觉传感器。手在进化中让人类获得制造工具的能力。
我常说,现在大模型来了,人的大脑比不过AI;双足机器人越来越强,腿比不过AI。在AI面前,人类最后的尊严就是我们的“灵巧手”。不知道什么时候会被攻破,但如果要被攻破,我猜很可能会在深圳。
为什么这么说?今天上午大会开幕时的颁奖,是国内首个聚焦机器人末端执行赛的专业赛事,赛题是真实场景:选品、打包、干线运输、无人机、无人车再到最后末端配送。这个大赛将继续由(国际先进技术应用推进中心(深圳)主任)姚颂主任领导推进。
具身智能方面,过去一年IDEA成立了三个新中心。
第一个是福田实验室,是我们与腾讯共同合作的实验室,推出国内首个以模块化方式提供大模型、开发工具和数据服务的具身智能软件平台Tairos。
第二个是国际先进技术应用推进中心(深圳),会在具身智能方向和产业结合方面承担更多工作,真正连接市场、产业、国内外伙伴。
第三个是深港高等研究交流中心。IDEA发展五年,正进入IDEA 2.0生态扩张阶段。MIT背景的郑立中教授加入香港科技大学和IDEA,共同建设SHARE中心。深港合作是我们的重点,希望香港大学、深圳大学、深圳企业共同做更大的事情。河套学院是一个很好的范例。
过去五年,IDEA研究院从几个中心起步,在深圳市的大力支持下不断扩展,与合作伙伴一同成长。
IDEA大会最后一个环节,总会介绍数字经济研究的重要方向——低空经济。今天最后二十分钟,我和(IDEA研究院低空经济分院院长)李世鹏博士一起介绍我们在低空领域的最新思考,题目是《低空进化路》。
低空经济的发展是技术、管理、经济的螺旋式上升,需要因地制宜地找到最适合落地的位置。虽然现在各地都在谈低空,各城市都很激动,从国务院到地方都在推动,但真正能飞起来的仍有限。我们把低空经济分五步:萌芽期、验证期、成长期、成熟期、进化期。
一个城市能飞多少架飞机、无人机,是判断的核心指标。深圳算做得最好的,每天真正有经济价值的无人机飞行大约1000架,表演的不算,仍处于成长期。
推动低空进化,要从可通达到可计算,再到可运营,最终到可进化。理解进化过程非常关键。
在深圳,我们这些年做了很多努力,坚持先行先试,从科技到产品,把低空经济一步一步往前推。过去十年出了四本白皮书,今年由李世鹏发布了第四本《白皮书4.0——通导监网络之路》。
这四本白皮书,是1.0到4.0的进化。2022年我们介绍了什么是低空,提出《深圳方案》。2023年发布《全数字化方案》,把SILAS体系讲清楚。2024年大家都很激动推动低空经济时,世鹏把安全体系提升到最高高度——只有安全飞行,低空经济才有机会做大。今年我们专注低空领域的核心技术,构建了自己的方法论,让低空稳步推进。
这些年我们也走出一条自己的实践路径:探索、验证、推广。通过白皮书与行业交流,也是我们整理出的深圳“中国方案”。
今年6月我在CVPR 2025做低空经济主旨演讲,下个月在香港SIGGRAPH ASIA 2025会继续介绍深圳的低空实践。业内越来越关注低空经济,也在问:低空经济到底是什么?能带来什么机会?如何改变生活和产业?
今天最后发布的是研究院的重磅作品——《低空时代》一书。过去一年,我与李世鹏、沈国斌、王丹薇共同完成,记录团队从技术、产业到经济的跨学科思考,希望以这种方式与大家分享。
特别感谢这五年的探索,尤其是在低空经济方面,是深圳这座因改革而生、因创新而兴的城市,给了我们包容和耐心支持。深圳正率先打开通向低空时代的新篇章。
今天以这本书的成果献给低空经济的先行者,献给改革开放四十周年的深圳,也献给每一个即将踏入低空时代的你们。
谢谢大家!明年再见。
——沈向洋















