更好地了解历史:俄用人工智能研究古代手稿

2024年6月5日
【 字号:
俄罗斯科学家开发出11-18世纪手稿搜索引擎。该引擎以人工智能算法为基础,能识别印刷技术使用以前的文件,并根据具体要求进行数据检索。项目初始阶段对数字化的《月课经(Mineya)》手稿进行搜索。
Ancient book
来源:Alexander Polyakov/俄新社
http://tsrus.cn/680393

扫一扫

《月课经》是一大类规范节日礼拜的教会书籍,保存在俄罗斯的图书馆和博物馆中。未来数据库将添加古代俄罗斯编年史、文学作品、公文和技术文件。 

在古手稿中查找信息

俄罗斯语言学家和控制论专家教会人工智能对古俄语文本进行检索。这些文本是11至18世纪用古斯拉夫语手写书籍。参与该项目的是莫斯科工程物理学院和俄罗斯科学院维诺格拉多夫俄语研究所的专家。据科学家们介绍,该系统是个以神经网络和其他大数据处理算法为基础的综合程序,可以帮助研究人员识别手稿,并根据不同参数从中进行检索。例如,可按历史时代、特定主题、书籍或其片段进行具体查询。除单词外,该程序还允许用长句表达要求。项目负责人、莫斯科工程物理学院控制论教研室副教授杰米多夫(Dmitry Demidov)接受《消息报》采访说:“我们创建了《古罗斯手稿遗产》网络资源处理文本,为其设计了一个特殊界面。它像普通互联网搜索引擎一样处理搜索请求。此外,我们还开发了一个在线键盘,可用它输入古斯拉夫语字符。搜索对象是来自俄罗斯国家图书馆、历史博物馆和地区文化机构等不同书库的数字化文本。” 

 / 莫斯科工程物理学院新闻处 / 莫斯科工程物理学院新闻处

了解历史和文化

科学家们说,搜索数据库目前包括245本《月课经》。它们是教会书籍,内容为一年中各教会节日礼拜仪式。通常每个教堂都有这种每月一本的礼拜书,每本平均约500页。俄罗斯科学院俄语研究所和莫斯科工程物理学院高级研究员普列特涅娃(Aleksandra Pletneva)说:“《月课经》是最常见的古代俄罗斯手稿。它们重复相同宗教主题,但研究和比较这些相似文本有助于我们了解自己的语言、文化和世界观的变化及这些变化发生在何时、何地及何种情况下。例如,我们可以看到,同一个故事不同年代有不同阐述。或单词含义是如何随时间变化的。”她说,社会变化在语言中也有所反映。对大量礼拜经文的研究使我们能追踪数世纪以来的许多历史和文化进程。科学家们认为,人工智能算法的优势在于其不需要像语言学家过去那样研究个别书籍,而是涵盖采用印刷技术前的国内所有宗教、艺术和技术文献的数字化版本。 

神经网络识别手稿

科学家们说,对古代文本的处理主要分为三个过程。首先,程序对页面进行分割,将其分为独立元素和符号。然后对其进行分类,并训练神经网络对其进行分析。不过,这个过程存在一系列困难,如相同字符在不同手稿中的书写方式有异及古斯拉夫语形态和语法有特殊性。杰米多夫说:“有时一个字母变体多达150个,因为尽管存在书写和字体规范,但每位撰写者都会在写作中加入自己的风格。此外,旧字母表包含46个字母,而不是现在的33个。一般古俄语书写的特点是有大量缩写、上标元素、单词和标点符号之间没有缩进。”他说,科学家们正在提高手稿识别准确性,包括减少分割和分类错误。因此,将数字化古代文献发布在公开互联网资源上很重要。这使研究人员能检验识别是否准确,并在出现错误时通知开发者。

 / 莫斯科工程物理学院新闻处 / 莫斯科工程物理学院新闻处

俄罗斯总统大学社会科学学院俄罗斯社会和经济史教研室主任孔恰科夫(Roman Konchakov)说:“我国有多个科研组正用软件算法进行文本研究,如有个旨在识别19世纪至20世纪初俄罗斯政治人物手稿的大项目。俄罗斯科学家在这方面的成绩与外国科学家相当或领先。”他说,人工智能工具将帮助大众了解档案馆和图书馆宝藏。同时,社会科学学院人工智能研究中心主任勃洛夫佐夫(Sergey Bolovtsov)认为,研究古代俄罗斯编年史是项艰巨任务,需要大批专家参与,包括程序员、机器学习专家、语言学家、历史学家和其他人文学科专家。

俄罗斯人民友谊大学俄语学院俄语和语言文化教研室副教授奥夫恰连科(Aleksey Ovcharenko)说:“斯拉夫月课经至少两次被大规模编辑,一次与14世纪《耶路撒冷宪章》传播有关,另一次是17世纪尼孔图书校订的结果。从古代手稿中追踪语言演变,并将古代作者原文与后来者引文进行对比,可以更深入地了解俄罗斯历史。”奥夫恰连科说,机器学习算法以概率为基础。因此初始阶段应由专家检验对古斯拉夫语言符号的识别,接下来再赋予人工智能更大自由度。对神经网络来说,古代文本装饰元素将是个挑战。俄罗斯人民友谊大学俄语学院第4俄语教研室主任卡利宁娜(Yuliya Kalinina)说,连体字(Vyaz')和各种使用它的粉饰与花哨,很长时间内可能只有具有创造力的头脑才能读懂。

需浏览俄文原文稿件,请登陆《消息报》网站

| www.tsrus.cn/680393| 

安德烈·科尔舒诺夫(Andrey Korshunov)

《透视俄罗斯》网站及其所有方《俄罗斯报》拥有网页发布所有信息和资讯的完全版权。未经过《透视俄罗斯》网站编辑书面同意禁止转载。联系邮箱:info@tsrus.cn