开发竞技场和基准 俄IT公司推广人工智能

2024年8月26日
【 字号:
【《透视俄罗斯》消息 】蓬勃发展的人工智能市场开始面临发达行业特有的挑战,如选择适当的效率评估方法。俄罗斯大语言模型(LLM,用于创建语音助手等应用场景)开发商选择不同工具与其他开发商进行公开比较。例如,YandexGPT测试版是通过在“大模型竞技场”(Chatbot Arena)进行两两对比评估的,MTS AI模型则通过解决预先设定的任务评估。市场参与者认为,可以针对不同问题使用不同的效率基准。
Conference "Journey into the world of artificial intelligence" in Moscow, 2022
来源:Sergey Fadeichev/塔斯社
http://tsrus.cn/681089

扫一扫

可能的评估方法

Yandex宣布在俄语版大语言模型质量评估平台LLM Arena(由数据标记公司Training Data前技术总监罗曼·库采夫创建)上提供自己的YandexGPT测试版入口。该应用根据“大模型竞技场”原理工作,即让用户对比两个模型的工作结果,评估哪个好,根据评估结果形成神经网络评级。大语言模型(LLM)为神经网络模型,用于处理文本数据,包括文本生成、文本分类和创建简要复述。俄罗斯LLM开发商将其用于扩展终端应用(搜索、语音助手等)功能,并为其他公司提供集成到其应用中的服务。Yandex专家说:“参加竞技场是个好机会,可在集成到产品中或提供API接口(集成到其他开发商的应用中)前,根据用户要求,在真实环境中测试更新版神经网络。”Yandex宣布,选择这种比较方法的原因,是其使用了大量用户评估。该公司说:“此外,竞技场中的模型测试人员有许多是机器学习专家,他们可以提出更复杂、更特殊的要求。” 

可能的前景

俄罗斯IT解决方案开发商Omega创始人兼总经理阿列伊尼克(Yaroslav Aleynik)说:“今天,IT行业增长速度高于经济增速,为其提供支持是国家关注的重点,尤其是在人工智能和机器人技术领域。我们看到,工业对最新技术解决方案的需求呈爆炸性增长,因此我们决定筹集资金,将我们在自动化、机器人化和AI控制系统领域的产品规模成倍扩大,这在未来两年需要大量投资。”

人工智能领域研究人员已在尝试创建一种俄语LLM比较方法。2023年,MERA基准在AI发展联盟(包括Yandex、VK、储蓄银行、俄气石油公司、乌拉尔化学公司等)主导下建立,工作原理是根据固定指令评估技能。Yandex模型未出现在MERA公布的领先模型列表中。为什么不参加MERA,公司未做解释,但表示“继续使用常见基准”,并且创建了自己的MMLU国际基准版本。与之相反,另一家俄罗斯公司的模型MTS AI出现在MERA中,但未参加LLM Arena。MTS公司说,后者主要用于测试个人用户案例,MTS AI模型面向企业用户。储蓄银行模型在MERA和LLM Arena中都有展示。

AI发展联盟表示,基准和竞技场“不能直接比较”。联盟中使用基准的理由,是其可以检验对不同复杂程度及主题的已知问题的回答质量。该联盟说:“但是,为了公平地评估模型,最好使用多个基准。”人工智能开发公司Just AI产品总监奥布洛姆斯基(Gleb Oblomsky)说,在评估LLM用俄语回答问题质量的领域“存在一些混乱”。他说,MERA基准“在任务和数据收集方面具有足够代表性,但在参与者方面却完全没有代表性,因为在其领先模型列表中没有OpenAI和Anthropic等世界领先公司的产品”。他同时指出,原则上公司不应使用基准评估模型是否适用于具体解决方案。奥布洛姆斯基说:“从商业角度说,应基于具体产品的质量维度进行比较。”

本文为《透视俄罗斯》专稿

| www.tsrus.cn/681089| 

雅娜·谢尔盖耶娃(Yana Sergeeva)

《透视俄罗斯》网站及其所有方《俄罗斯报》拥有网页发布所有信息和资讯的完全版权。未经过《透视俄罗斯》网站编辑书面同意禁止转载。联系邮箱:info@tsrus.cn