破译蒙藏典籍 俄罗斯科学家使用神经网络

2022年4月14日
【 字号:
俄罗斯科学院西伯利亚分院蒙古学、佛学和藏学研究所收藏着各种藏文和蒙文古文献十万余册,是真正的古代智慧宝库,但其中只有一小部分文字被翻译成俄文。目前,俄罗斯科学院西伯利亚分院蒙古学、佛学和藏学研究所东方手写文献和刻本研究中心的科学家已开始破译这些独一无二的古代典籍。为此,他们使用了人工智能系统。
Tibetan monks
来源:俄罗斯报
http://tsrus.cn/674621

扫一扫

教人工智能系统阅读

“目前我们正教人工智能系统阅读藏文”,研究所所长巴扎罗夫(Boris Bazarov)院士介绍说,“为此扫描了500页手稿和刻本(木刻板印刷古代书籍),然后主要通过使用将藏文文字转换为拉丁字母的威利(Wylie)系统手动输入拉丁字母”。这500页文献成为神经网络“教材”,程序员教神经网络记住图像并将其与随附文本相关联。培训只用了两个小时,神经网络就通过了考试,已能以94%的准确率识别藏文。但科学家们并不满足于此。

“藏文文字特点在于其是音节文字,而非字母”,东方手写文献研究中心主任林奇诺夫(Oleg Rinchinov)介绍说,“刻本与其他文献的不同之处在于其多相性——有的地方刻得比较清晰,有的地方刻得比较模糊。而且这些文献还受到岁月摧残。因此,目前还没有达到文本识别的最高准确率”。科学家们认为可以将准确率提高到99%,但每提高一个百分点都需要大量细致的工作。例如要将准确率提高到95%,需要多用上千个示例“教”神经网络,准确率从95%提高到96%则需要用上万个示例。因此,目前仍在继续通过人工将藏文转写成拉丁字母,该项目至少延长了五年。相比之下,一个藏学家翻译一部作品需要三到十年。

“这是世界上首次尝试解译藏文”,巴扎罗夫院士说,“翻译典章、教学和医学文献可以更充分地了解古代知识,而且使大量材料得以通用。因此将该项目延期,并且我们现在所有的努力都是为了提高文本识别的准确性。之后我们借助于神经网络就可以轻松地将原始文献翻译成其他语言了”。

访问该研究所的俄罗斯科学院院长谢尔盖耶夫(Alexandr Sergeev)和俄罗斯科学院西伯利亚分院院长帕尔蒙(Valentin Parmon)不仅从文化角度,而且从实践角度对古代智慧宝库的前景予以高度评价。他们认为,医学书籍中的处方可以用来制作生物活性添加剂,还可以制药。这对在布里亚特共和国建立生物医学产业集群尤其具有现实意义。

中国药学家的启示

“2015年中国药学家屠呦呦因发现治疗疟疾新药获得诺贝尔奖。这种药是从青蒿中提取的,可以有效降低疟疾患者的死亡率”,巴扎罗夫举了一个现代使用古代知识的最鲜明的例子说,“有一篇古代藏族作家写的冷却青蒿论著。藏族智慧还包含多少造福人类的发明?我们很快就会知道。我们发明出这个算法,实现系统工作稳定后,我们一定会开始破译古蒙古文文献。我相信,我们在这方面也会取得科学突破”。

俄罗斯科学院西伯利亚分院蒙古学、佛学和藏学研究所收藏的古代藏文和蒙古文典籍、档案文件、音频、照片和视频属全球最大规模之一。这些稀有珍品收集了上百年。藏品中有十多万册藏文典籍和七千册古蒙古文文献,包括哲学、医学和宗教文学。最古老的文献可以追溯到十六世纪,其中的文字更古老。这些珍品中有约170部独立医学著作,涉及冥想方法、针刺疗法、外科手术和药理学。其中只有10%被译成了俄语。

需浏览俄文原文稿件,请登陆《俄罗斯报》网站

 | www.tsrus.cn/674621 |

伊琳娜·施杰尔曼(Irina Shterman)

《透视俄罗斯》网站及其所有方《俄罗斯报》拥有网页发布所有信息和资讯的完全版权。未经过《透视俄罗斯》网站编辑书面同意禁止转载。联系邮箱:info@tsrus.cn