1/4
古籍污损、缺字难辨认?这个AI古籍修复模型可以“识别”
澎湃新闻2024-07-04 20:01:00

一部因为年代久远而出现污损、缺字或者难以辨认的古籍,人工智能也能够“无违和识别”。

7月4日,2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC2024)在上海开幕。在展览现场,一款AI古籍修复模型,向公众展示AIGC技术如何数字化修复敦煌遗书章节残损的页面、文字,成为大会展览的一大亮点。

7月4日,2024世界人工智能大会展览现场,AI古籍修复模型向公众展示AIGC技术如何数字化修复敦煌遗书章节残损的页面、文字。受访者供图

u0026nbsp;“敦煌遗书”是敦煌莫高窟藏经洞出土的公元4至11世纪的古写本及印本的统称,所涉内容广泛,包括宗教文献、四部典籍、官私文书,以及相当数量的非汉文文献等,对历史、宗教、地理、天文、历法具有重要研究价值,被誉为“中国中古时代的百科全书”。晚清时期,藏经洞出土文献文物流散于全世界各地,除中国外,敦煌遗书目前还分藏于英国、法国、俄罗斯、日本等国家的数十家收藏机构中,缺乏一个完整的联合目录,对学术界的体系化研究造成巨大干扰。此外,大量的文献页面存在不同程度的残损,敦煌遗书的保护、传承工作,引发社会关注。

AI古籍修复模型由合合信息旗下扫描全能王携手华南理工大学团队共同打造,将AIGC技术应用于敦煌遗书残卷的数字化修复上。现场展位开放了敦煌遗书合成样本的文字修复体验项目,公众可在不同位置移动扫描样本卷轴,见证AI如何通过字形修补、褪色修复、背景补全等方式,完成古籍的数字化修复。

世界人工智能大会敦煌遗书文字修复效果演示。澎湃新闻记者 俞凯 图

“你可以看一下,随着我们滑轴的移动,(敦煌遗书)样本卷轴的不同地方是有不同程度的缺损的,然后我们可以点击滑轴上AI古籍修复模型的操作功能按钮,就可以开启修复工作。进行图像处理之后,AI就会识别目前你想要修复的区域并进行自动定位,定位完之后,自动判断这一区域需要修复的缺字或者字迹污损难辨认情况,修复完之后实现1:1的还原。” 合合信息展台工作人员说,在修复时,AI古籍修复模型还会自动学习原版古籍的文字、笔画风格(书法字体),以及页面纹理,把缺损的文字按照原来的字体、色彩、背景加以修复还原,且能够做到天衣无缝、看上去没有“违和感”,在最大程度上确保了修复区域的文字风格和背景与原古籍的一致性。

修复前。澎湃新闻记者 俞凯 图

修复后。澎湃新闻记者 俞凯 图

澎湃新闻记者看到,大会现场还展示了敦煌遗书系列文献中《汉书·刑法志》节选章节的修复效果。《汉书·刑法志》是研究汉代司法制度和司法实践的重要史实材料,这份曾凋零在千年时光中的残卷,被AI拂去岁月的痕迹,第一次以完整的姿态向关注者们问好。

合合信息携手华南理工大学成立的古籍数字化修复团队成员表示,古籍的数字化修复是一项艰巨、浩大的工程,未来也希望能联通更多专业的文献研究机构及技术专家,共同提升数字化修复精度与效率,促进古籍文物的时代价值挖掘与知识发现,推动中国传统文化与现代科技的融合创新。

作者:澎湃新闻记者 俞凯
选稿:郑闻文
知识产权、免责声明以及媒体合作联系
继续了解
知识产权声明

【知识产权声明】

除本司(指上海东方网股份有限公司)另行声明外,本司网页及客户端产品(以下简称“本网”),包括但不限于东方新闻、翱翔、东方头条等,所涉及的任何资料(包括但不限于文字、图标、图片、照片、音频、视频、图表、色彩组合、版面设计、商标、商号、域名等)的知识产权均属本司和资料提供者所有。未经本司书面许可,任何人不得复制、转载、摘编、修改、链接、镜像或以其他任何方式非法使用东方网的上述内容。对于有上述行为者,本司将保留追究其法律责任的权利。

东方网、东方新闻、翱翔,以上均为本司享有权利之合法商标,未经本司书面授权,任何单位或个人不得使用上述商标,或将上述商标用作网站、媒体名称等。

【免责声明】

1、凡本网注明来源“东方网”或“东方新闻”或带有东方网LOGO、水印的所有内容,包括但不限于文字、图片、音频视频,版权均属本司所有,任何媒体、网站或其他任何形式的法律实体和个人未经本司书面授权均不得转载、链接或以其他方式复制传播。与我司签订有关协议或已经获得本司书面授权许可的媒体、网站或其他任何形式的法律实体和个人,应在授权范围内使用,且必须注明来源“东方网”。其目的在于传递更多信息,并不意味着本司赞同其观点或认可其内容的真实性。如果其他媒体、网站或其他任何形式的法律实体和个人使用,必须保留本司注明的“稿件来源”,并自负全部法律责任。如擅自篡改为“稿件来源:东方网”,本司将依法追究责任。

2、擅自使用东方网名义转载不规范来源的信息、版权不明的资讯,或盗用东方网名义发布信息,设立媒体账号等,本司将依法追究其法律责任。

3、鉴于本网发布主体、发布稿件来源广泛,数量较多,如因作者联系方式不详或其他原因未能及时与著作权拥有者取得联系,或著作权人发现本网转载了其拥有著作权的作品时,请主动来函、来电与本司联系,或与本司授权的中国文字著作权协会联系,提供相关证明材料,我方将及时处理。
中国文字著作权协会联系方式:
联系人:赵洪波 唐亚静
地 址:北京西城区珠市口西大街120号太丰惠中大厦1027-1036室
联系电话:010-65978917
邮 箱:wenzhuxie@126.com

4、本网所有声明以及其修改权、更新权及最终解释权均属本司所有。

【媒体合作】

本司为尊重保护著作权,鼓励有益于社会主义精神文明、物质文明建设的作品的创作和传播,促进互联网良性发展,本着平等互惠、资源共享的原则,诚邀各类媒体、网站、单位、个人与本网建立友好的合作关系。
媒体合作、内容转载请联系
联系人:杨老师
联系电话:021-22899781