AI将揭开梵蒂冈机密档案馆之谜
科技行者 3月20日 北京消息 梵蒂冈机密档案馆(Vatican Secret Archives)被列为世界十大禁地之一,它是罗马教皇的档案保管机构,也是欧洲教会中收藏档案最丰富,最古老的档案馆。
其珍藏的许多文件从未转录,即便教堂档案员也对其中隐藏的秘密一无所知。然而,机器视觉系统将会揭开中世纪文本的神秘面纱。

梵蒂冈机密档案馆颇为传奇。据称,该馆保存的往届教皇的私人信件和其他文件,不少内容可追溯至公元8世纪, 排起来可延绵85公里长。
馆内警戒森严,自1881年起,学者们接触到的文件极为有限,但其中的信息量却蔚为可观。
举个例子,一张长达60米的羊皮纸上记满了对法国圣殿骑士的审判供词,这场审判自1307年伊始,持续数年。这些信件中,有米开朗基罗的手稿,有国王亨利八世请求废除婚姻的申请书,还有苏格兰女王玛丽被斩首前的说情信。
此外,档案中还包含距今较短的通信文件,比如美国南北战争时期,亚伯拉罕·林肯和杰斐逊·戴维斯分别来信,试图说服教皇庇护九世支持各自阵营——北方联邦和南部邦联。还有二战期间,教皇与纳粹政权的往来信件都从未出版。事实上,1939年后的所有档案完全对外保密。
虽然这些文件禁止出版,但档案馆设有影像备份及档案保护工作室。与其他许多历史档案馆一样,他们已开始影像备份文件,供学者深入研究。
但档案存量过于庞大,光靠人工抄录备份,根本无法完成。那么,机器视觉技术是否能够起作用?
幸运的是意大利罗马第三大学的Donatella Firmani及其同事启动了“In Codice Ratio(‘编码系统’的拉丁文)”项目,旨在开发能够自动转录梵蒂冈机密文件(名为Vatican Registers)的系统。
该语料库收录了13世纪的18,000页官方信件,覆盖内容极广,从天主教到国王、王后,从政治到宗教,横贯欧洲各领域。Firmani及其团队表示:“这些文件此前从未转录,因此,历史意义可谓空前巨大。”
中世纪文本的特殊性给机器视觉技术带来了诸多挑战。由于手稿字迹风格各异,存在连笔(将相邻字母连成一笔书写)和特殊缩略语,因此传统的视觉识别算法无法胜任转录工作。
为解决这一难题,学者们研发了识别整个单词(不仅仅是字母)的计算机视觉系统。然而效果仍不理想。大多数单词在长篇文件中只出现过几次,所以很难创建满足机器学习需求的数据集。
如今,Firmani及其团队发明了训练文字视觉识别系统的新方法:将单词拆分为笔划,再像拼图一样将笔划组合起来。他们表示:“我们想开发一个能够转录尽可能多手稿的成熟系统。”
系统将单词拆分为笔划后,再试图将笔划组合成字母,分析所有可能的排列组合方式,最终排除所有不符合语法的组合。
例如,通常可将笔划组合为“iii”和“m”,因语法错误排除前者。同样的笔划组合还有“in”或“ni”,系统需进一步研究整个单词及其所处语境,再作出选择。[page]分页标题[/page]
Firmani团队首先创建了一个数据集,训练基于神经网络的计算机视觉系统。
该数据集需要进行标记处理。因此,视觉系统可学习笔划的排列方式与可能字母的映射。
他们将数据标记外包出去,将拼图似的单词拆分为模式识别问题(如拼图式验证码)呈现给120所高校学生,让他们数小时内共同人工标注包含15,000个单词的数据集。
标注结果十分理想。Firmani团队称:“我们能够准确转录数据集中65%的字母图像。”
显然,这一成果对转录中世纪文章和历史学家的研究而言意义非凡。但还有更多难题需要攻克。例如,小写字母的转录问题仍然存在,因此下一步的关键是扩大词汇量,将大写字母及中世纪文本中的缩略语纳入数据集。
梵蒂冈机密档案馆将如何利用这一科技尚不得而知,梵蒂冈文件(Vatican Registers)被转录后是否会公之于众也无人知晓。
但即使文件未能出版,Firmani团队开发的前沿技术也能帮助学者们进行相关领域的深入研究。例如,可利用单词、词组频率及其随时间的变化等数据展开历史文件研究。可作为分析历史文化的重要切入点。

- AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20
- 游戏玩家为之疯狂!Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39
- 全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38
- AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50
- 极速制胜 制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44
- 央视《新闻联播》头条聚焦铁建重工,聚力攻克“卡脖子”技术难题2021-03-22 11:08
- 刚刚!我又上央视新闻联播头条了!2021-03-22 11:04
- 中国电科(3月1日-3月7日)要闻回顾 | 资讯轻阅读2021-03-22 10:47
- 我国将建第一个国家公园:为何是三江源2021-03-22 10:43
- 美国硅谷上演“大逃亡”:郊区成科技精英避难所2021-03-22 10:41

- 11:32金海汇成投资有限公司如何以创新路径重构产业生态
- 11:31东方药林第4期研修班圆满落幕 以学习型组织建设驱动企业高质量发展
- 17:2240万债权击穿10亿资产酒企?徽酒集团双轮酒业二次破产背后的博弈
- 19:40南京市创投集团合作子基金投资企业壁仞科技成功登陆港交所
- 15:12降价超75%!纳米晶体甲地孕酮医保落地,为肿瘤CACS患者送来诊疗福音
- 14:51纳米晶型甲地孕酮(美适亚)纳入2026医保,为CACS患者打破“厌食-死
- 10:57「山谷奇技,声乐造艺」 全新宝珀北京王府中環旗舰店盛大启航
- 10:57宝珀“大音乐家-四音四锤双旋律大小自鸣”超复杂功能腕表
- 18:57南京先进制造产业专项母基金子基金遴选结果揭晓
- 17:38东方药林:携手第四小组成员单位共推行业党建提质增效
- 12:32兑现“好房子”承诺:解读九牧的“场景答案”
- 20:05全美世界紧急捐赠100万港币 支援香港火灾善后重建
- 19:55皙之密护肤套装测评:秋冬干燥肌的水润守护
- 18:36市占率第一!九牧领跑中国“好房子”卫浴赛道
- 10:41智界潮改车共创大赛:从“用户共创”到“生态共生”的品牌文化构筑新范式
- 13:36南京市紫金生物医药产业投资基金合伙企业子基金遴选结果揭晓
- 14:40前沿技术赋能全域数据安全 安全防控可信数据空间 V1.0 版正式发布
- 14:38第一届濮院电竞节,今日启幕!
- 15:04助推产业链高质量发展·创投实录|清普生物:长效新药破“痛局”
- 11:38响应高质量发展,九牧为“好房子”拓路:从部委示范到全域智慧生态
- 10:28万亿市场税收变局 紫竹药业避孕药份额面临调整压力
- 17:18金海汇成投资有限公司创新路径与全球视野
- 14:22广州易萃享:立足羊城匠心,打造精准营养新标杆
- 14:05易萃享健康:数智驱动,让健康管理触手可及
- 10:11创投集团直投企业他山科技完成新一轮融资
- 09:36易萃享健康:全周期管理,筑起家庭健康屏障
- 08:38易萃享:1000 日夜匠心,精准营养走进万家
- 18:55广东康力医药有限公司:荣誉加身,彰显标杆实力
- 18:27广东康力医药:深耕 28 载,书写国际化发展传奇
- 18:19康力医药:多元协同,构建全方位健康服务生态



