1/0
2024世界人工智能大会|开源全球最大个甲骨文多模态数据集,助力甲骨文研究
新民网2024-07-06 10:24:02

图说:甲骨文多模态数据集正式发布 采访对象供图

7月5日,2024世界人工智能大会·腾讯论坛在上海世博中心举办,“数字甲骨共创中心”宣布将全球最大的甲骨文多模态数据集正式开源。该数据集包含一万片甲骨的拓片、摹本,以及甲骨单字对应位置、对应字头、对应隶定字以及辞例分组、释读顺序等数据。基于该数据集,研究人员可开发甲骨文检测、识别、摹本生成、字形匹配以及释读等方向的智能算法,助推甲骨文研究加速数字化和智能化。

数字甲骨共创中心由安阳师范学院甲骨文信息处理教育部实验室、腾讯SSV数字文化实验室、腾讯优图实验室、中国社会科学院甲骨学殷商史研究中心、中国社会科学院考古研究所安阳工作站、厦门大学多媒体可信感知与高效计算教育部重点实验室、郑州大学汉字文明研究中心等单位共同发起建立,吸纳了来自中国社会科学院古代史研究所、复旦大学、英国剑桥大学、法国高等研究实践学院、日本立命馆大学、美国罗格斯大学、加州大学洛杉矶分校等高校和研究机构的专业科研力量支持。

此次开源的甲骨文多模态数据集集合了甲骨文数字化研究的最新成果。一方面,该数据集吸收了当前业界最先进的甲骨文研究资料,包括剑桥大学博士秦培超发布的镜元甲骨文字库,该字库考虑了人工智能标注需求的字库进行了细粒度的异体字标识;以及清华大学黄天树教授发布的《摹本大系》,得益于其具有大量甲骨片清晰字形,降低了标注的难度。

另一方面,AI相关技术的应用也为数据集的信息丰富提供了支撑。比如由腾讯优图实验室联合安阳团队开发的甲骨字检测模型,可以对甲骨片上的字进行一个初步的标注;字形降噪与匹配模型,为检索提供了最直接的方法;甲骨校重算法,可以实现拓片与大系摹本的配准,使得大系摹本可以直接辅助拓片的标注;同时双方联合打造的协同创新平台,也大大提升了数据标注的效率。

腾讯数字文化实验室负责人舒展在分享中介绍,守护中华文脉,焕活汉字源头。用人工智能助力甲骨文“破译”和活化利用,我们一直在探索,将“甲骨文AI破译”纳入探元计划支持的创新探索型项目的定向命题。联合数字甲骨共创中心发布甲骨文AI破译需求,揭榜挂帅,期待与有技术储备、有意愿共创、致力于AI助力甲骨文破译的科研机构形成解决方案。经过遴选评审的共创伙伴将获得资助,共创甲骨文AI考释破译的新算法、新工具、新方法。

近年来,腾讯持续探索数字科技与文化深度融合,运用前沿数字科技帮助文化遗产保护传承,发起并推动了AI助力甲骨文研究、三星堆文物修复、国博数字人等多个项目,用数字技术推动文化遗产焕活。

AI也在持续助力天文探索。2021年,腾讯联合国家天文台,发起了“探星计划”,基于优图实验室的计算机视觉技术,用AI+云提高探星效率,辅助快速射电暴和近密双星系统中脉冲星搜索。

快速射电暴是目前天文界研究热点,相比脉冲星,快速射电暴因发现时间晚、AI训练数据少、出现频率低,发现难度相比脉冲星要大很多。为此,优图团队通过设计全新的端到端AI算法,引入多示例学习和大模型注意力机制,显著提升了模型精度和数据处理速度。截至目前,“探星计划”从巡天观测数据中发现了3颗快速射电暴、41颗脉冲星。

新民晚报记者 杨玉红

作者:杨玉红
选稿:郑闻文
知识产权、免责声明以及媒体合作联系
继续了解
知识产权声明

【知识产权声明】

除本司(指上海东方网股份有限公司)另行声明外,本司网页及客户端产品(以下简称“本网”),包括但不限于东方新闻、翱翔、东方头条等,所涉及的任何资料(包括但不限于文字、图标、图片、照片、音频、视频、图表、色彩组合、版面设计、商标、商号、域名等)的知识产权均属本司和资料提供者所有。未经本司书面许可,任何人不得复制、转载、摘编、修改、链接、镜像或以其他任何方式非法使用东方网的上述内容。对于有上述行为者,本司将保留追究其法律责任的权利。

东方网、东方新闻、翱翔,以上均为本司享有权利之合法商标,未经本司书面授权,任何单位或个人不得使用上述商标,或将上述商标用作网站、媒体名称等。

【免责声明】

1、凡本网注明来源“东方网”或“东方新闻”或带有东方网LOGO、水印的所有内容,包括但不限于文字、图片、音频视频,版权均属本司所有,任何媒体、网站或其他任何形式的法律实体和个人未经本司书面授权均不得转载、链接或以其他方式复制传播。与我司签订有关协议或已经获得本司书面授权许可的媒体、网站或其他任何形式的法律实体和个人,应在授权范围内使用,且必须注明来源“东方网”。其目的在于传递更多信息,并不意味着本司赞同其观点或认可其内容的真实性。如果其他媒体、网站或其他任何形式的法律实体和个人使用,必须保留本司注明的“稿件来源”,并自负全部法律责任。如擅自篡改为“稿件来源:东方网”,本司将依法追究责任。

2、擅自使用东方网名义转载不规范来源的信息、版权不明的资讯,或盗用东方网名义发布信息,设立媒体账号等,本司将依法追究其法律责任。

3、鉴于本网发布主体、发布稿件来源广泛,数量较多,如因作者联系方式不详或其他原因未能及时与著作权拥有者取得联系,或著作权人发现本网转载了其拥有著作权的作品时,请主动来函、来电与本司联系,或与本司授权的中国文字著作权协会联系,提供相关证明材料,我方将及时处理。
中国文字著作权协会联系方式:
联系人:赵洪波 唐亚静
地 址:北京西城区珠市口西大街120号太丰惠中大厦1027-1036室
联系电话:010-65978917
邮 箱:wenzhuxie@126.com

4、本网所有声明以及其修改权、更新权及最终解释权均属本司所有。

【媒体合作】

本司为尊重保护著作权,鼓励有益于社会主义精神文明、物质文明建设的作品的创作和传播,促进互联网良性发展,本着平等互惠、资源共享的原则,诚邀各类媒体、网站、单位、个人与本网建立友好的合作关系。
媒体合作、内容转载请联系
联系人:杨老师
联系电话:021-22899781