不过,专家指出,该技术尚无法完全取代真人语音录制,并且不适用于所有类型的文学作品。
据图书服务商“Stroki”(MTS公司旗下)介绍,该公司计划今年用MTS公司AI部门开发的人工智能技术为1万多部作品配音。第一阶段已在处理600部作品。将在神经网络、机器学习和自然语言处理技术(NLP)的Audiogram平台基础上录制这些图书。据MTS公司介绍,新技术可以合成语音,设置重音和停顿,模仿疑问、激励和其他语调。对该项目的投资并未透漏。
据有声读物市场领头企业LitRes集团公司(提供LitRes、MyBook和Livelib等服务)内容开发部总监谢利瓦诺夫(Yevgeny Selivanov)介绍,公司也在开发用AI技术为有声读物配音的业务。他说:“我们早在2020年秋季就推出了此类配音服务,但2022年秋季才开始积极使用。这种服务以SpeechKit语音识别和合成技术为基础,通过Alice语音助手(由Yandex公司开发)实现。”Yandex公司也证实,用云端AI技术为各种文本配音的需求不断增加。该公司说:“2022年用上述SpeechKit技术共为超过10万小时有声读物配音。”2022年LitRes公司共录制并发行约6000本“真人”发音有声图书,但“自动阅读器”仅两个月内就完成3000本图书配音。据谢利瓦诺夫介绍,用AI技术为一本书配音的成本为400-700卢布。他说:“通过算法可以在一定时间内比分工式阅读团队多制作数倍图书。”谢利瓦诺夫说,与标准机器人配音不同,AI会记住编辑人员标记的停顿并自动设置,避免失真。
据MTS公司介绍,目前俄罗斯市场90%以上的图书没有音频版本,据该公司估计,通过传统方式将其转换为音频格式“需要数年时间”。MTS公司说:“用AI制作初始版本有声读物需要约30-60分钟,传统工作室真人语音录制方式,如果考虑到技术加工和剪辑,需要数天时间。”出版商也在测试人工智能。Exmo-AST公司总裁诺维科夫(Oleg Novikov)说,集团公司将AI技术用于根据过去的销售数据预测补印发行量和分析稿件潜力等用途。
据Alpina Digital公司(Alpina 集团)音频项目负责人博罗宁(Nikolai Boronin)介绍,公司用AI技术为本公司产品中的86本书进行了配音。他说:“但不能说这已成为惯例。再好的人工智能也无法完全取代真人语音录制。人工智能的声音并不完美,可能会对销售产生负面影响。”他认为,挑剔的听众可能会因为缺乏自然语调放弃购买用人工智能配音的有声读物。谢利瓦诺夫认为这一技术显然还不完善,真正实现客观销量并对最终质量负责,还需对文本进行额外标记,为复杂单词添加重音并帮助AI以正确语调朗读图书。博罗宁说,LitRes公司计划今年对录制流程进行完善。他说:“没有重音或语调错误问题,用户对机器人配音还是比较包容的,因此图书行业在这个方向的积极发展是显而易见的。”
普列汉诺夫经济大学教授捷列利扬斯基(Pavel Terelyansky)说:“自动朗读文本的主要问题是语调和正确配置语义重音。也就是说,文中一些片段应通过艺术朗读方式或多或少地表现出来,而不是简单的声音大小问题。一个人可以通过听语调判断另一个人的各种情绪状态,如恐惧、喜悦、忧伤、兴奋等等。单个句子层面这一任务很容易通过句读符号解决。”他说,文本作者为句子附上适当符号,就很容易开发可读出疑问句或感叹句的算法。开发可以朗读出带讽刺意味感叹句的算法,即便单句层面也会难得多。也有这种情况。
捷列利扬斯基说:“主要问题是作者在文本中配置辅助性标记时,是基于这样一个事实,即读者能看到上下文并且理解所表达的意思。如果叙述语境令人生畏,感叹号应被理解为威胁;如果文本是抒情的,感叹号就意味着情感。”他说,目前如果能通过真人编辑和导演为文本配置专门变音符号,开发能实现所有这些语调的算法不存在任何困难。实际上这些符号的组合就是一种语调程序。但真人导演要通过自身对文本含义的理解能力沉浸在作品语境中。捷列利扬斯基说:“现阶段人工智能无法理解文本含义,只能根据类似类别(如忧伤的、快乐的、抒情的)关联文本。语言学中有这种分析文本研究成果。完全可以使其算法化。但不了解语境,就不可能将讽刺与一些严肃或荒谬的叙述区分开来。3D电视方向曾进行过类似的内容分析尝试,即尝试将平面图“即时”转换为三维图”。他说,这项技术10年前特别流行,但不幸的是彻底失败了,因为算法无法在上下文叙述中识别内容。捷列利扬斯基说:“也许简单的叙述文通过AI朗读能接近艺术朗读水平,但朗读复杂的有剧情文本,即便不懂行的听众也显然会发现朗读得并不自然。纠正语调需要编辑人员标注变音符号,即直接手动标注,而非通过自适应编程方式。”
Finam金融集团的杰里岑(Leonid Delitsyn)认为,AI算法能使有声读物成本降低数十倍,因此毫无疑问,可加快生产速度并降低生产成本。他说:“还可以扩大销量,因为能制作多种类型图书的音频版本。不过,在精确科学和技术科学方面并没有帮助,也就是说通过带有公式和图表的AI或通过编程编制的教科书不太可能会有很多人去听。但大部分文学作品是通过其他方面发表的。曾几何时,)(俄罗斯国内发行的)国外视频都是用鼻音很重的翻译员的著名声音配音,也并未影响人们观看。”杰里岑说,不需要朗读技巧情况下用AI为文学作品配音可能非常有效,即并非朗读科恰良 (Suren Kocharyan) 的《奥德赛》,而是朗读比如平克顿 (Nat Pinkerton)的《历险记》第九卷或《净业》手册第三卷。他说:“新一代人是多元的,他们同时做作业、打电脑游戏、看电影。有声读物将成为其中的一元,在此情况下朗读质量不是最重要的。此外,人工智能还能为产品添加额外功能。例如,文学作品测试中提到的那部分图书,有声读物可以用专门警报信号突显。图书所有者将有机会根据测试版本更新此项服务。”
本文为《透视俄罗斯》专稿
| www.tsrus.cn/6766615|