Yandex神经网络服务已能处理语音和文本,但这一过程的实现需要将数据从一种类型转换为另一种类型。多模态网络旨在捕捉这种转换过程中丢失的细节,如情绪和讽刺。
Yandex招聘部门介绍说,公司正开发神经网络模型SpeechGPT,但尚未正式宣布,目前正招聘一名机器学习工程师加入团队。这将是一种多模态模型(能处理不同类型输入数据),“它能理解文本和语音,以文本和语音回答,解决衔接文本和语音的不同任务”。Yandex公司说,他们正为语音助手爱丽丝和其他应用开发多模态。对有关SpeechGPT模型的问题,公司未作回答。
Yandex的一些神经网络应用已能接收不同类型输入数据。语音助手爱丽丝既可以用语音,也可以用文本与用户交流。去年12月公司网站增加了一个独立文本聊天页面。今年5月底,Yandex以类似方式扩展SpeechSense功能,这个最初为分析客服中心数据创建的应用,现在也可以处理文本消息。Neuro应用现在可以同时处理文本和图像。但是据Just AI联合创始人彼得罗夫(Kirill Petrov)介绍,多模态用户体验与多模态模型有所不同。他说,第一种情况下通常是将数据从一种类型转换为另一种类型:“例如语音助手先是用一个模型将语音转换为文本,然后由另一个模型分析这个文本,第三个模型再把答复文本转换为语音。这其中每一步都会发生简化,整个处理过程比较长。”OpenAI公司的GPT-4o这样的多模态模型则可无延迟地处理所有类型的内容。
彼得罗夫认为,Yandex开发这一领域至关重要。他说:“正是这项技术中隐藏着AI和语音助手的未来发展,其中包括爱丽丝。”“语音技术中心”集团总经理德尔莫夫斯基(Dmitry Dyrmovsky)表示,支持音频的多模态模型能“识别多种语言语音,分解对话者讲话,识别情绪和复杂非言语技巧,如讽刺和嘲讽”。同时,这种模型还能降低语音技术门槛。他说:“它同时整合了多种技术,并使用与文本模型相同的界面。”
Botcreators公司是家商务和会展活动智能方案开发商,已连续第三年作为合作伙伴参加俄罗斯互联网论坛(RIF)。今年该公司推出一款独特AI网络机器人,使论坛参与者能快速搜索自己的照片。该网络机器人适用于VK和Telegram用户。其工作原理很简单:参与者向网络机器人发送一张面部清晰的本人照片,神经网络以照片为基础分析在论坛上收集到的照片库。最终,用户能在聊天应用中直接获得自己被拍到的所有照片。Botcreators代表、“自动化艺术”商务总监博罗夫科夫(Evgeny Borovkov)说:“我们的目标是使参与者在RIF论坛期间的停留尽可能舒适,从完成其业务任务的角度说更有合理性。我们的技术让用户无需花时间逐一检查几百张照片,而是只收到他确实被拍到的照片。”
作为聊天机器人创建基础的自研人脸识别技术,可在以后用于各种商业需求,如搜索公司高管的照片用于创作内容和图片报道,或者改进公司出入控制系统。这项技术还适用于中小企业,它们无力承受IT巨头用的解决方案。该网络机器人的主要创新不仅在于功能,还在于其开发方法。Botcreators强调说:“我们利用神经网络优化了创建机器人过程。约80%的代码由人工智能生成,这大大加快了开发速度,使我们能专注于最终产品的设置和优化。”
俄罗斯储蓄银行宣布正在培训GigaChat进行多模态对话,并在多模态模型领域协助人工智能研究所AIRI开发了OmniFusion模型。他们说:“储蓄银行和SberDevices的科学家都参与了这项研究。”社交网络VK拒绝就此发表评论。Axenix公司人工智能专家和高级分析师克拉夫采夫(Vladimir Kravtsev)认为,SpeechGPT的MVP(最小可行产品)可能会在未来几个月内出现,“然后是持续改进过程”。他认为,SpeechGPT将首先“嵌入与Yandex的客户、合作伙伴沟通渠道有关的现有应用中”,也就是说,将逐步用先进模型取代现在的简单模型。然而,Hybrid公司产品总监德鲁戈娃(Svetlana Drugova)认为,Yandex的模型将不太可能与谷歌(Gemini家族)或OpenAI的多模态模型相媲美。她说:“建一个能与其竞争的模型需要数十亿美元投入。但考虑到Yandex已有一些研发成果,成本将会略低一些。”
本文为《透视俄罗斯》专稿
| www.tsrus.cn/680623|