会说话的神经网络 Yandex开发多模态模型

2024年7月2日

【字号：大中小】

打印页面

【《透视俄罗斯》消息】Yandex正在招聘员工开发多模态模型SpeechGPT。根据职位描述，该模型可理解文本和语音，并在其帮助下作出回答。

2017, presentation of a new version of Yandex search.

来源：Alexander Vilf/俄新社

扫一扫

Yandex神经网络服务已能处理语音和文本，但这一过程的实现需要将数据从一种类型转换为另一种类型。多模态网络旨在捕捉这种转换过程中丢失的细节，如情绪和讽刺。

项目实质

Yandex招聘部门介绍说，公司正开发神经网络模型SpeechGPT，但尚未正式宣布，目前正招聘一名机器学习工程师加入团队。这将是一种多模态模型（能处理不同类型输入数据），“它能理解文本和语音，以文本和语音回答，解决衔接文本和语音的不同任务”。Yandex公司说，他们正为语音助手爱丽丝和其他应用开发多模态。对有关SpeechGPT模型的问题，公司未作回答。

更好地了解历史：俄用人工智能研究古代手稿

Yandex的一些神经网络应用已能接收不同类型输入数据。语音助手爱丽丝既可以用语音，也可以用文本与用户交流。去年12月公司网站增加了一个独立文本聊天页面。今年5月底，Yandex以类似方式扩展SpeechSense功能，这个最初为分析客服中心数据创建的应用，现在也可以处理文本消息。Neuro应用现在可以同时处理文本和图像。但是据Just AI联合创始人彼得罗夫（Kirill Petrov）介绍，多模态用户体验与多模态模型有所不同。他说，第一种情况下通常是将数据从一种类型转换为另一种类型：“例如语音助手先是用一个模型将语音转换为文本，然后由另一个模型分析这个文本，第三个模型再把答复文本转换为语音。这其中每一步都会发生简化，整个处理过程比较长。”OpenAI公司的GPT-4o这样的多模态模型则可无延迟地处理所有类型的内容。

彼得罗夫认为，Yandex开发这一领域至关重要。他说：“正是这项技术中隐藏着AI和语音助手的未来发展，其中包括爱丽丝。”“语音技术中心”集团总经理德尔莫夫斯基（Dmitry Dyrmovsky）表示，支持音频的多模态模型能“识别多种语言语音，分解对话者讲话，识别情绪和复杂非言语技巧，如讽刺和嘲讽”。同时，这种模型还能降低语音技术门槛。他说：“它同时整合了多种技术，并使用与文本模型相同的界面。”

竞争项目

Botcreators公司是家商务和会展活动智能方案开发商，已连续第三年作为合作伙伴参加俄罗斯互联网论坛（RIF）。今年该公司推出一款独特AI网络机器人，使论坛参与者能快速搜索自己的照片。该网络机器人适用于VK和Telegram用户。其工作原理很简单：参与者向网络机器人发送一张面部清晰的本人照片，神经网络以照片为基础分析在论坛上收集到的照片库。最终，用户能在聊天应用中直接获得自己被拍到的所有照片。Botcreators代表、“自动化艺术”商务总监博罗夫科夫（Evgeny Borovkov）说：“我们的目标是使参与者在RIF论坛期间的停留尽可能舒适，从完成其业务任务的角度说更有合理性。我们的技术让用户无需花时间逐一检查几百张照片，而是只收到他确实被拍到的照片。”

作为聊天机器人创建基础的自研人脸识别技术，可在以后用于各种商业需求，如搜索公司高管的照片用于创作内容和图片报道，或者改进公司出入控制系统。这项技术还适用于中小企业，它们无力承受IT巨头用的解决方案。该网络机器人的主要创新不仅在于功能，还在于其开发方法。Botcreators强调说：“我们利用神经网络优化了创建机器人过程。约80%的代码由人工智能生成，这大大加快了开发速度，使我们能专注于最终产品的设置和优化。”

提高公共服务质量俄将投资万亿发展数字经济

俄罗斯储蓄银行宣布正在培训GigaChat进行多模态对话，并在多模态模型领域协助人工智能研究所AIRI开发了OmniFusion模型。他们说：“储蓄银行和SberDevices的科学家都参与了这项研究。”社交网络VK拒绝就此发表评论。Axenix公司人工智能专家和高级分析师克拉夫采夫（Vladimir Kravtsev）认为，SpeechGPT的MVP（最小可行产品）可能会在未来几个月内出现，“然后是持续改进过程”。他认为，SpeechGPT将首先“嵌入与Yandex的客户、合作伙伴沟通渠道有关的现有应用中”，也就是说，将逐步用先进模型取代现在的简单模型。然而，Hybrid公司产品总监德鲁戈娃（Svetlana Drugova）认为，Yandex的模型将不太可能与谷歌（Gemini家族）或OpenAI的多模态模型相媲美。她说：“建一个能与其竞争的模型需要数十亿美元投入。但考虑到Yandex已有一些研发成果，成本将会略低一些。”

本文为《透视俄罗斯》专稿

| www.tsrus.cn/680623|

叶卡捷琳娜·普里亚欣娜（Ekaterina Pryakhina）

《透视俄罗斯》网站及其所有方《俄罗斯报》拥有网页发布所有信息和资讯的完全版权。未经过《透视俄罗斯》网站编辑书面同意禁止转载。联系邮箱：info@tsrus.cn

会说话的神经网络 Yandex开发多模态模型

项目实质

竞争项目

简讯

视听

商业资讯

文化资讯

电子报

中国内地版本