这家为AI for Science而生的新研究院，要让科研进入“安卓模式”

量子位QbitAI

量子位QbitAI官方澎湃号

2022-07-01 09:30

原创关注前沿科技量子位

梦晨发自凹非寺

量子位报道 | 公众号 QbitAI

AI for Science，这个概念是什么时候火起来的？

一个引爆点，在2021年7月，AlphaFold2开源并一口气预测了98.5%的人类蛋白质结构，向世人展示了AI在科学研究领域解决实际问题的巨大潜力。

到了年底，各大机构发布一年回顾和未来预测时，AI for Science和它的缩写AI4S便在一次次曝光中深入人心。

一方面，数据驱动被誉为科学研究的下一个范式。另一方面，科研应用也被看成AI落地的新战场。

如今距离AlphaFold2差不多一年过去，AI4S进展如何？

除了背靠谷歌、财大气粗的DeepMind继续发光发热，搞出了AI辅助数学家证明定理、AI控制核反应堆等成果之外，还有一个趋势值得关注：

开源工具和基于开源工具产生的创新成果呈爆发趋势，AI4S的研究范围也扩展到更多基础问题领域。

研究水，有借助DP-GEN深度势能生成工具以第一性原理精度预测水在零温零压到2400K、50GPa区间的十余种相变。

这一成果登上物理学顶刊Physical Review Letters，并被选为“Editors' Suggestion”。

研究火，有。

这一项目已发布第一个版本，并与多家国产ARM架构芯片完成适配。

最近，更是有研究基于一系列开源框架，在第一性原理数据及机器学习势函数之间构建桥梁。

显著提升了分子动力学模拟在规模、精度等方面的天花板。这些新研究方法和开源工具要解决的问题通常离大众生活并不算近，也缺少明星公司的影响力，所以往往无法引爆话题、登上热搜。

但对于相关科研工作者来说，这些却是关系到他们研究方向和工作效率的大事。

在聚光灯之外，一群积极探索机器学习与物理建模结合的人，正聚集在名为DeepModeling的开源社区。DeePMD-kit是社区里最早、也是影响力最大的项目。

它通过机器学习、高性能计算和物理建模的结合，把分子动力学极限提升至10亿原子规模同时保持高精度。

这项成果在2020年获得有“超算界诺贝尔奖”之称的戈登·贝尔奖，还与“嫦娥五号首次实现月面自动采样返回”和“人造太阳”等成果一起当选2020中国十大科技进展。

到现在，DeepModeling社区已发展成跨多个学科的开源平台。

发展出来的项目还有主要针对凝聚态材料模拟计算的ABACUS，构建准确高效的密度泛函模型的通用机器学习框架DeePKS-kit，偏微分方程数值解算法库FEALPy等。

就最近这一个月，他们还密集发起了四个新项目。

分别是前面提到的燃烧反应流体计算平台，生产级可微分力场计算引擎，旨在共建AI4S和云原生时代科学计算工作流的框架，以及希望帮助所有对AI4S感兴趣的人能够快速了解该领域的。

快速发展背后的主要推动力量，是一家从名字上就可以看出是为AI4S而生的新型研究院：

北京科学智能研究院（AI for Science Institute, Beijing，简称AISI）。

为AI for Science而生的研究院

AISI是一家年轻的研究院，2021年9月才正式成立，却已闯出不少名堂。

除了研究工作、推动建设DeepModeling开源社区外，还推动创办了新的机器学习期刊JML（Journal of Machine Learning）。

JML希望在传统学科期刊和机器学习领域的会议之外，成为AI for Science在发展初级阶段一个理想的学术交流平台。

这家研究院为何聚焦于AI for Science方向？

还要从院长鄂维南院士说起。

鄂维南从事应用数学、科学计算研究多年，并于2011年当选为中国科学院院士。

80年代起，他就在推动用多尺度模型解决多体问题、药物和材料设计、湍流和非牛顿流体力学等难题。

但在这些问题中，长期存在着“维数灾难”。

维数灾难最早由动态规划创始人理查德·贝尔曼提出。

指随着维数的增长，分析高维空间中数据需要的计算量呈指数级增长。

例如在高维空间中要达到同样的采样密度，需要的采样点数量呈指数级增长，这让经典的计算方法难以适应复杂问题的研究。因为一次偶然的尝试，鄂维南课题组在尝试用AI辅助分子动力学模拟时，获得了5-6个数量级上的加速效果，这使鄂维南开始意识到深度学习正是解决维数灾难的绝佳工具，因为深度神经网络的本质就是在逼近高维函数。

如图像识别是通过特征提取把图像内容转换成高维向量。AlphaGo下围棋也是在高维空间中求解满足最优策略的方程。

AI for Science的基础，便是将深度学习这一能力应用于各种科学问题。

在这一思路指导下，鄂维南带领团队于2017年提出深度势能（Deep Potential）分子动力学方法，用深度学习方法去计算上亿个原子之间相互作用的势能函数。

△深度势能方法示意，来自Phys. Rev. Lett. 120 (14), 143001

后来获戈登贝尔奖的DeePMD，以及DeepModeling开源社区就是在此基础之上发展而来。

鄂维南对于后来成立研究院的思考和行动，也是从17年底就开始。

他的学生、也是后来AISI的副院长张林峰认为鄂老师不仅是个学者，还是个旗手。

18年，鄂维南就在北大召集了很多方向的学者共同探讨AI for Science。

这可能是AI for Science这一主题在世界范围内首次大规模被讨论。

后来他也在国内国际多个场合呼吁“科学是人工智能的下一个主战场。”

包括在美国数学学会会刊发表题为《应用数学新时代的曙光》的观点性文章，获得广泛关注。2020年9月他从普林斯顿回国，开始召集团队筹建研究院。

一年后，AISI研究院终于正式挂牌成立。

今年7月，鄂维南还受邀在四年一度的国际数学家大会（ICM），也就是菲尔茨奖的颁奖活动上作1小时报告。

全球仅有21位数学家获此荣誉，而鄂维南将成为中国大陆的第三人。

到时他也将以AISI院长这个新身份向全球数学家继续呼吁推广AI for Science。

既然已经有了开源社区，为何还要以研究院的形式开展活动？

首先，AI for Science带来的新范式需要机器学习、高性能计算和物理模型的紧密结合，缺一不可。

这就需要有一个名义把各种背景的人聚集到一起。

一般情况下，学校里总是缺少工程师类人才，企业的话又难以招揽大量科学家。

独立研究院，就成了开展AI for Science工作比较有效的前沿阵地。

有了实体的研究院做支撑，开源社区这个无实体的组织在招募成员、吸引投资、发表研究成果等方面也更方便开展活动。

AISI成立后已聚集来自国内外顶尖高校、科研机构和企业的交叉学科的一批核心成员。

当前阶段，AISI的目标在于AI for Science基础设施建设和前沿科学问题探索，要为科学发展打造平台化的工具。

要是把目光放更长远，AISI还希望推动整个科学研究从“小农作坊模式”转换到平台化的“安卓模式”。

平台化科研的新模式

如何理解科研的“小农作坊模式”？

一方面指科学家在各自的实验室里单打独斗，用着难以修改的闭源祖传代码，也容易形成垄断优势。

另一方面也指科研缺乏自动化的流程，需要大量有经验的人员做人工干预。

AISI的战略发展顾问孙伟杰认为，传统模式下的科研工作者实在是……太苦了。

近年来互联网和AI行业都在“起飞”，其中从业者有了明确的分工、享受着完善的基础设施开发工具。

相比之下科研工作者还在面对低效的工作环境和协作模式。

而“安卓模式”，可以理解成科研的规模化大生产，借鉴Linux、安卓等平台的成功经验，用开源带来滚雪球效应，聚集人才、数据、算法和应用场景，为科研创新加速。

与AI在安防、医疗等需求比较集中的场景相比，AI for Science在各个学科的需求更分散，经历的链条也会更长。

于是在这个“安卓模式”之中，既需要开源社区来提供工具，研究院去做创新，也需要企业把这些创新成果开发成产品。

比如AISI核心成员创办的深势科技公司，使用分子动力学方法DeePMD打造了微尺度工业设计平台。

其中药物设计平台Hermite已被多家药企研发人员使用，不久前还成功复现AlphaFold2打造了开源的Uni-Fold，集成到平台中解决了蛋白质结构的数据来源。

于是，DeepModeling开源社区、AISI研究院、深势科技等企业以及学界业界更多合作伙伴一起，共同组成了AI for Science平台化科研模式下从创新到落地的完整生态链。

那么在AI for Science之前，传统科学计算领域为何没有出现大的开源平台？

AISI副院长张林峰认为有三方面原因。

先是历史原因，尽管互联网时代科学家之间的交流和连接已经极为方便，祖传代码还是发挥着关键的作用。

再有是科研看重创新的性质和学术评价体系也不鼓励形成平台，在顶级期刊发表论文会给研究者带来很大声望，但开源工具的开发者却很难直接受益。

最后，是AI给科学计算领域带来的新变化。

有了AI的参与势必需要新的基础设施，既包括AI的三大要素数据、算法和算力，也包括在此基础之上构建出的模型和工具链。

并且AI从业者与IT工作人员的天然交集，也给AI4S带来了平台化思维的基因。

当然，这里面还是需要有具体的人来推动，不可能说整个领域有一天大家都觉醒了，自发的形成一个平台。

DeepModeling开源社区以及AISI研究院，正是要做这一批先行动起来的人。

无论是研究具体的交叉领域问题，还是更宏大的推动科学研究范式革新，都需要更多同路人。

AISI目前正在寻找在交叉领域具有良好科研素养、富有创造力的优秀学者加入。

招聘方向包括电子结构、分子动力学、计算辅助材料设计、计算流体力学、燃烧算法、高性能科学计算等，可点击下方链接或阅读原文了解更多。

AISI北京科学智能研究院：

DeepModeling开源社区：

http://www.deepmd.org

参考链接：

[1][2]https://developer.nvidia.com/blog/accelerated-molecular-simulation-using-deep-potential-workflow-with-ngc/

[3]https://icm2022.abstractserver.com/program/#/details/persons/243

— 完 —

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

打开APP，阅读体验更佳

作者：梦晨

【知识产权声明】

【免责声明】

【媒体合作】