
量子位QbitAI
量子位QbitAI官方澎湃号
2022-07-01 09:30
原创 关注前沿科技 量子位
梦晨 发自 凹非寺
量子位 报道 | 公众号 QbitAI
AI for Science,这个概念是什么时候火起来的?
一个引爆点,在2021年7月,AlphaFold2开源并一口气预测了98.5%的人类蛋白质结构,向世人展示了AI在科学研究领域解决实际问题的巨大潜力。
到了年底,各大机构发布一年回顾和未来预测时,AI for Science和它的缩写AI4S便在一次次曝光中深入人心。
一方面,数据驱动被誉为科学研究的下一个范式。另一方面,科研应用也被看成AI落地的新战场。
如今距离AlphaFold2差不多一年过去,AI4S进展如何?
除了背靠谷歌、财大气粗的DeepMind继续发光发热,搞出了AI辅助数学家证明定理、AI控制核反应堆等成果之外,还有一个趋势值得关注:
开源工具和基于开源工具产生的创新成果呈爆发趋势,AI4S的研究范围也扩展到更多基础问题领域。
研究水,有借助DP-GEN深度势能生成工具以第一性原理精度预测水在零温零压到2400K、50GPa区间的十余种相变。
这一成果登上物理学顶刊Physical Review Letters,并被选为“Editors' Suggestion”。

研究火,有。
这一项目已发布第一个版本,并与多家国产ARM架构芯片完成适配。

最近,更是有研究基于一系列开源框架,在第一性原理数据及机器学习势函数之间构建桥梁。
显著提升了分子动力学模拟在规模、精度等方面的天花板。这些新研究方法和开源工具要解决的问题通常离大众生活并不算近,也缺少明星公司的影响力,所以往往无法引爆话题、登上热搜。
但对于相关科研工作者来说,这些却是关系到他们研究方向和工作效率的大事。
在聚光灯之外,一群积极探索机器学习与物理建模结合的人,正聚集在名为DeepModeling的开源社区。DeePMD-kit是社区里最早、也是影响力最大的项目。

它通过机器学习、高性能计算和物理建模的结合,把分子动力学极限提升至10亿原子规模同时保持高精度。
这项成果在2020年获得有“超算界诺贝尔奖”之称的戈登·贝尔奖,还与“嫦娥五号首次实现月面自动采样返回”和“人造太阳”等成果一起当选2020中国十大科技进展。

到现在,DeepModeling社区已发展成跨多个学科的开源平台。
发展出来的项目还有主要针对凝聚态材料模拟计算的ABACUS,构建准确高效的密度泛函模型的通用机器学习框架DeePKS-kit,偏微分方程数值解算法库FEALPy等。
就最近这一个月,他们还密集发起了四个新项目。
分别是前面提到的燃烧反应流体计算平台,生产级可微分力场计算引擎,旨在共建AI4S和云原生时代科学计算工作流的框架,以及希望帮助所有对AI4S感兴趣的人能够快速了解该领域的。
快速发展背后的主要推动力量,是一家从名字上就可以看出是为AI4S而生的新型研究院:
北京科学智能研究院(AI for Science Institute, Beijing,简称AISI)。
为AI for Science而生的研究院
AISI是一家年轻的研究院,2021年9月才正式成立,却已闯出不少名堂。
除了研究工作、推动建设DeepModeling开源社区外,还推动创办了新的机器学习期刊JML(Journal of Machine Learning)。
JML希望在传统学科期刊和机器学习领域的会议之外,成为AI for Science在发展初级阶段一个理想的学术交流平台。

这家研究院为何聚焦于AI for Science方向?
还要从院长鄂维南院士说起。
鄂维南从事应用数学、科学计算研究多年,并于2011年当选为中国科学院院士。
80年代起,他就在推动用多尺度模型解决多体问题、药物和材料设计、湍流和非牛顿流体力学等难题。
但在这些问题中,长期存在着“维数灾难”。
维数灾难最早由动态规划创始人理查德·贝尔曼提出。
指随着维数的增长,分析高维空间中数据需要的计算量呈指数级增长。
例如在高维空间中要达到同样的采样密度,需要的采样点数量呈指数级增长,这让经典的计算方法难以适应复杂问题的研究。因为一次偶然的尝试,鄂维南课题组在尝试用AI辅助分子动力学模拟时,获得了5-6个数量级上的加速效果,这使鄂维南开始意识到深度学习正是解决维数灾难的绝佳工具,因为深度神经网络的本质就是在逼近高维函数。
如图像识别是通过特征提取把图像内容转换成高维向量。AlphaGo下围棋也是在高维空间中求解满足最优策略的方程。

AI for Science的基础,便是将深度学习这一能力应用于各种科学问题。
在这一思路指导下,鄂维南带领团队于2017年提出深度势能(Deep Potential)分子动力学方法,用深度学习方法去计算上亿个原子之间相互作用的势能函数。

△深度势能方法示意,来自Phys. Rev. Lett. 120 (14), 143001
后来获戈登贝尔奖的DeePMD,以及DeepModeling开源社区就是在此基础之上发展而来。
鄂维南对于后来成立研究院的思考和行动,也是从17年底就开始。
他的学生、也是后来AISI的副院长张林峰认为鄂老师不仅是个学者,还是个旗手。
18年,鄂维南就在北大召集了很多方向的学者共同探讨AI for Science。
这可能是AI for Science这一主题在世界范围内首次大规模被讨论。
后来他也在国内国际多个场合呼吁“科学是人工智能的下一个主战场。”
包括在美国数学学会会刊发表题为《应用数学新时代的曙光》的观点性文章,获得广泛关注。2020年9月他从普林斯顿回国,开始召集团队筹建研究院。
一年后,AISI研究院终于正式挂牌成立。
今年7月,鄂维南还受邀在四年一度的国际数学家大会(ICM),也就是菲尔茨奖的颁奖活动上作1小时报告。
全球仅有21位数学家获此荣誉,而鄂维南将成为中国大陆的第三人。
到时他也将以AISI院长这个新身份向全球数学家继续呼吁推广AI for Science。

既然已经有了开源社区,为何还要以研究院的形式开展活动?
首先,AI for Science带来的新范式需要机器学习、高性能计算和物理模型的紧密结合,缺一不可。

这就需要有一个名义把各种背景的人聚集到一起。
一般情况下,学校里总是缺少工程师类人才,企业的话又难以招揽大量科学家。
独立研究院,就成了开展AI for Science工作比较有效的前沿阵地。
有了实体的研究院做支撑,开源社区这个无实体的组织在招募成员、吸引投资、发表研究成果等方面也更方便开展活动。
AISI成立后已聚集来自国内外顶尖高校、科研机构和企业的交叉学科的一批核心成员。
当前阶段,AISI的目标在于AI for Science基础设施建设和前沿科学问题探索,要为科学发展打造平台化的工具。
要是把目光放更长远,AISI还希望推动整个科学研究从“小农作坊模式”转换到平台化的“安卓模式”。
平台化科研的新模式
如何理解科研的“小农作坊模式”?
一方面指科学家在各自的实验室里单打独斗,用着难以修改的闭源祖传代码,也容易形成垄断优势。
另一方面也指科研缺乏自动化的流程,需要大量有经验的人员做人工干预。
AISI的战略发展顾问孙伟杰认为,传统模式下的科研工作者实在是……太苦了。
近年来互联网和AI行业都在“起飞”,其中从业者有了明确的分工、享受着完善的基础设施开发工具。
相比之下科研工作者还在面对低效的工作环境和协作模式。
而“安卓模式”,可以理解成科研的规模化大生产,借鉴Linux、安卓等平台的成功经验,用开源带来滚雪球效应,聚集人才、数据、算法和应用场景,为科研创新加速。
与AI在安防、医疗等需求比较集中的场景相比,AI for Science在各个学科的需求更分散,经历的链条也会更长。
于是在这个“安卓模式”之中,既需要开源社区来提供工具,研究院去做创新,也需要企业把这些创新成果开发成产品。
比如AISI核心成员创办的深势科技公司,使用分子动力学方法DeePMD打造了微尺度工业设计平台。
其中药物设计平台Hermite已被多家药企研发人员使用,不久前还成功复现AlphaFold2打造了开源的Uni-Fold,集成到平台中解决了蛋白质结构的数据来源。

于是,DeepModeling开源社区、AISI研究院、深势科技等企业以及学界业界更多合作伙伴一起,共同组成了AI for Science平台化科研模式下从创新到落地的完整生态链。
那么在AI for Science之前,传统科学计算领域为何没有出现大的开源平台?
AISI副院长张林峰认为有三方面原因。
先是历史原因,尽管互联网时代科学家之间的交流和连接已经极为方便,祖传代码还是发挥着关键的作用。
再有是科研看重创新的性质和学术评价体系也不鼓励形成平台,在顶级期刊发表论文会给研究者带来很大声望,但开源工具的开发者却很难直接受益。
最后,是AI给科学计算领域带来的新变化。
有了AI的参与势必需要新的基础设施,既包括AI的三大要素数据、算法和算力,也包括在此基础之上构建出的模型和工具链。
并且AI从业者与IT工作人员的天然交集,也给AI4S带来了平台化思维的基因。
当然,这里面还是需要有具体的人来推动,不可能说整个领域有一天大家都觉醒了,自发的形成一个平台。
DeepModeling开源社区以及AISI研究院,正是要做这一批先行动起来的人。
无论是研究具体的交叉领域问题,还是更宏大的推动科学研究范式革新,都需要更多同路人。
AISI目前正在寻找在交叉领域具有良好科研素养、富有创造力的优秀学者加入。
招聘方向包括电子结构、分子动力学、计算辅助材料设计、计算流体力学、燃烧算法、高性能科学计算等,可点击下方链接或阅读原文了解更多。
AISI北京科学智能研究院:
DeepModeling开源社区:
http://www.deepmd.org
参考链接:
[1][2]https://developer.nvidia.com/blog/accelerated-molecular-simulation-using-deep-potential-workflow-with-ngc/
[3]https://icm2022.abstractserver.com/program/#/details/persons/243
— 完 —
特别声明
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
打开APP,阅读体验更佳
作者:梦晨