从DeepSeek爆火、宇树机器人全网刷屏,再到妙趣横生、“含AI量”极高的2025中关村论坛年会,中国AI正以前所未有的速度改变着千行百业。聚焦“人工智能”,本期对话中国科学院院士、北京大学国际机器学习研究中心主任、北京科学智能研究院学术委员会主任鄂维南,他在2025中关村论坛年会平行论坛——AI For Science青年论坛中分享了以下主旨演讲《AI For Science:赋能研发全面转型升级 推动“大科研时代”的到来》
演讲实录:
大家下午好!
AI For Science论坛,我坚定不移地认为,它是我们国家人工智能布局里面的一匹黑马,将来也会产生巨大的影响。
我为什么讲这样一句话?AI For Science出现之前,我个人的科研实际上是走了30多年的弯路。我在科大是学纯数学的,为了让我自己的工作真的有用,我考研突然转做了应用数学,当时所有老师都不知道我干什么。我从应用数学开始,有限元,然后到读博士做流体力学,博士后做固体力学、材料科学,后来又转到计算物理、凝聚态物理,尤其是软凝聚态物理,接着1999年到普林斯顿,转到做分子动力学,后来自己又转到第一性原理、电子结构。应该说,理科和工科里面所有基础理论模型——物理、化学、材料、机械科学、机械工程、土木工程等,我都做了一些科研工作。
我举个例子,总书记2021年的院士大会上提到了一点,就是千万核上面做第一性原理计算,一部分是科大的工作,一部分是电子结构的计算,而这个工作背后的算法就是我和几个同事做的。
我做了这么多不同的专业、不同的方向,这不是我主观意愿,而是我没有找到好的选题,没有觉得既有创新的空间,又真正能够有用的(学科选题)。所以,这个是我当时的困惑,尤其是当我认识到,我的工作成果也被其他科学家们使用,我发现他们(在使用这些研究成果时)做的这些工作与真正落地,能够解决实际问题上差距很远。
所以,2011年我写了一本书,叫《多尺度计算方法》,然后就开始决定真正转行做大数据。我是最早推动多尺度方法的,1999年就开始推动多尺度方法,2002年我在普林斯顿高等研究院,就是大家看《奥本·海默》那个电影里面经常出现的地方,我组织了一个科学计算多尺度方法的研讨会,这是我知道的(当时)国际上唯一的一次,各个不同领域,物理、化学、生命科学、机械工程、化工等各个不同的领域做科学计算的顶级专家聚在一起开的一个小型会议,但是我个人感觉看不到这些东西真正能够落地,真正能够解决实际问题。2004年我在国内推大数据及大数据算法。2010年在复旦建了一个数据科学专业,很可能是全世界第一个数据科学专业,可惜只建了一年。
2012年,我感觉到大数据已经快火起来了,于是在北大组织了一个研讨会。中国大数据为什么困难?就是缺人。但是,我们的优势在哪里?就是我们市场比较大。所以,我组织了一个研讨会,就是把做科研的、数据科学信息产业的人拉在一起。2014年全面转行建了北大的大数据科学中心,这也是国内的第一个数据科学研究生专业。2015年创建了北京大数据研究院,2016年建了数据科学的本科专业。
这个过程当中一个非常重要的发现,就是我以前碰到的科学计算的核心困难,为什么那些路都走不下去?探索了那么多不同的领域都走不下去的原因在哪里?就是因为所谓的“维数灾难”,因为变量的个数,输入、输出的函数关系,当你的自变量的个数增加的时候它的复杂度是指数增加的,而恰恰深度学习提供了解决“维数灾难”的有效方法。
什么叫作“维数灾难”?我举个例子,“组合爆炸”跟“维数灾难”可以说是难兄难弟。左边是国际象棋,右边是围棋,国际象棋是8×8,围棋是19×19。国际象棋1997年的时候专家系统DeepBlue就已经解决了,当时就打败了人类最好的专家。但是,同样的方法解决不了围棋问题,围棋得等到20年之后,深度学习出现之后,Alpha Go才能解决围棋问题,这两者之间的差距就是“维数灾难”的问题,或者组合爆炸的问题。所以说,只有深度学习才能解决大的体系,复杂系统的问题。
2017年7月我就开始布局这件事情,2017年圣诞节,我开了我历史上唯一的一次组会,把所有的学生召集在一起,我告诉他们,未来几年深度学习方法全面改变科学研究,而且这个机会只有100年前量子力学产生的时候所提供的机会可以相比,而且那个时候我就坚定不移地认为这个事情必须靠年轻人解决,因为我们年龄大的人思维不容易转弯。所以,我当时说你们每个人都有这样的机会,而且我有一个学生,说是圣诞节来了,要出去玩,我就给他讲了一个故事,一个非常著名的物理学家就是因为出去玩,然后把诺贝尔奖给丢掉了,我说你千万不能在这个时候出去玩。所以,从2017—2020年实际上对我来说是一个非常困难的事情,因为我必须从培养人开始。
在基础的算法方面,我们从最底层的薛定谔方程、量子力学的基础方程,到上面的连续介质力学,在每一个层次都发展了人工智能方法赋能的新的算法,应该说几乎每一个层次都是我们最早做的这些工作,后面像Google,很多其他的都开始Folldow。2018年我跟汤涛院士一起在北大组织了国际上第一次AI For Science研讨会,我的两个学生青年合作者张林峰和王函他们牵头推动成立了国际上第一个AI For Science的开源社区DeepModeling。
2018年我还推动张林峰和孙伟杰成立了这样一个公司——深势科技。成立这个公司从我的角度来说是两个原因:第一,我们一定要抱着落地的决心,第二,企业也是另外一个获取资源做事情的平台。这几年下来,深势科技已经成为AI For Science领域全世界力量最强的团队之一。2018年还布局了另外一件事情,就是做国际上的第一个大数据库——AI数据库,2021年这个产品出来,就是MyScale,这个是国际上第一个AI数据库,这个数据库也是成为我们现在的基础设施。
我们也在北京市的支持下,推动成立了北京科学智能研究院,这是国际上第一个以AI For Science为主要目标的研究院,现在已经聚集了一批年轻人,我坚定不移地认为他们将来会成为国际上科学的主力。
从2017年开始,我就已经确定了一个战略布局,就是我们怎样推动AI For Science,这个战略布局我把它叫作“农村包围城市”。
什么意思呢?城市指的就是那些亮点项目,像蛋白结构、Alpha Fold这样的亮点项目,这样的亮点项目我们不是没想到,这些机会我们是看到的。但是,我们没有能力去跟美国在这些项目上拼。所以,这些项目我们不能去花太多精力。
所谓“农村”什么意思?“农村”就是基础设施,AI For Science最重要的就是推动整个科研范式的改变,要把这件事情真正做到落地,我们就必须建这些基础设施,包括比方说数据库,文献的工具、理论的方法、实验的工具,这个是我今天要跟大家讲的。这个基础设施,从2018年开始,深势科技和北京科学智能研究院一起打造了这样一个所谓的“玻尔空间站”,我们把它定义成AI For Science领域的Hugging Face,它给大家提供的就是高水平的文献阅读、计算和实验平台。
我举一个简单的例子,这是一个大模型,叫DPI系列,我们已经出台了DPI1、DPI2,它把分子和原子层面从小分子到催化剂、高熵合金、功能材料、能源材料,各个层面的计算数据、实验数据都整合在一起,在各个不同的场景,它们的效果都是最好的。在这个基础上,王函和马琰铭(现任浙大校长),他们发现了一批高压环境下富氢,就是氢的成分很多的这样一个超导材料。这些超导材料实际上我们现在就可以去实验室尝试,它们的结构都是非常新的,跟过去很不一样的超导结构。那么,这种工具就使得我们做这样的事情成本非常低。
两年前中关村论坛上我们发布了Science Navigator,这是一个智能化的文献平台,它集中了所有的科学文献,就是现有的你们可以拿到的科学资源,文献、专利等,再用AI数据库,它可以提供智能化的文献的利用。我们以前都是通过人来看,效率很低,这样一个智能化的表征系统,使得你可以用自然语言告诉它该干什么,它马上自己就找到缺陷在哪里,感兴趣的地方在哪里,拍一张照片,然后给你解读。有机合成应该是自动化、智能化里面最困难的事情,现在有了这样的平台以后,我们希望不但是能够把现有的有机合成的路径做得更加高效、更加准确,甚至于可以发现一些新的合成路径。
如何完成“最后一公里”?现在“玻尔空间站”已经有非常好的基础,但是并不是仍然有非常大的空间。第一个就是从计算的角度,刚才我说了,人工智能的方法让我们把科学计算的方法的效率提高了很多倍,提高了很多数量级,但是离实际场景还差一两个数量级,“最后一公里”怎么完成?从算法角度我们已经做到极致了,剩下的两个数量级怎么解决?
我们提出的方案就是从专用芯片来解决,在分子动力学这个场景已经实现了专用芯片,这样的样机,这样的专用芯片,现在我们只能在FPGA,因为没有足够的资金资源使它流片,如果能够流片,它就可以给我们提供刚才说的这两三个数量级的增加,我们就可以在实际场景下面做材料和蛋白的模拟、计算。文献,Science Navigator已经是非常好的基础平台,但是要把它做成好的产品,要解决背后的IP问题、知识产权问题,仍然需要很大的资源的支持。所以,最近我们在跟深圳的国科信,跟中国科协,我们也希望北京市能够积极参与,帮助我们在今年的时间里面就能完成“最后一公里”。还有实验,我们在跟苏州实验室、嘉庚实验室等,我们来赋能这些新的机构,甚至于传统的这些实验室,给它们智能化的转型。
这些事情做了以后,刚才我提的这些不是十年的一个项目,而是两三年的项目。这两三年以后,我们会实现什么?Then What?这里面就有一个反思。我个人在2018、2019年就开始注意到大模型,GPT1,GPT2,GPT3,甚至我们用了大模型。但是我压根就没有预测到ChatGPT会到来,不光是我个人,很多做人工智能的都没有看到ChatGPT会到来。
应该说,从我个人的角度来说,我这一生的研究生涯,几个主要的事情:多尺度的方法、AI For Science、大数据,我都先看到了,但在我的脑子里面,压根就没有一个全量资源这样的概念。ChatGPT告诉我们,我们现在到了一个可以设法用好全量资源的时代,大语言模型的全量资源就是全量的语料和全量的算力,但是AI For Science的全量资源是全量的数据,全量的理论,全量的人才。理论和人才我就不多说了,从数据的角度,我们眼下做的事情是把文献和已有数据用好。更重要的是通过实验,通过计算,可以得到很多增量资源,这个是更大的空间所在,这也是为什么我们花这么大的精力来做计算的方法,来做自动化的实验,智能化的实验方法,它要构造一个一体化的平台,在这个一体化的平台上,就一个数据库,一个图书馆,整合了所有的教育资源,还有一个超算中心整合了所有的计算平台,还有一个实验室整合了所有的实验功能。
现在我们科研做交流是通过文献,通过开会来解决的。有了这个新的一体化平台以后,文献的办法、开会交流的办法就已经远远不够了,我们必须有新的交流平台,这样的交流平台使得我们所有的科研人员就成为一个科研团队,这个我们现在已经看到了,正在发生。它可以帮助我们打破学科之间的界限,打破理论和实验之间的界限,打破科研和产业之间的界限。这就意味着我们不但要更高的探索效率,更重要的是我们有更大的探索空间。
谢谢大家!
作者:鄂维南;来源:中国信息界