寻找中国经济新动能·魔都“模”力 | 云从科技加速迭代多模态大模型能力

发布日期：2024-04-24 文章来源：媒体管家 阅读次数：847 次 分享到：

作为计算机视觉技术浪潮中兴起的技术企业，云从科技在人工智能领域一直保持着活跃状态。

2019年初，云从科技与IBM中国、阿里巴巴创新中心等头部科技企业同期入驻上海张江人工智能岛；同年年末，凭借其AI治理经验，云从科技被评为国家标准人脸识别工作组副组长单位。随后于2022年，云从科技成功上市，成为登陆科创板的首家AI平台公司。

081ed30c17a224d1099b6534dae51650_171384828977632700_a700x398.jpg

近日，云从科技披露了其2023年年度报告。财报显示，云从2023年实现营业收入6.29亿元，同比增长19.33%；归母净利润同比减亏25.95%。其中，同比增长超20倍的泛AI领域营业收入表现亮眼，从容大模型成为营收增加的加速器。

站在如今的中国大模型赛道回望就会发现，整个赛道正在从拥挤走向分层。曾于2023年年初喊出大模型口号的公司，到现在仍保持活跃的也仅剩寥寥数家。

2023年5月，云从科技发布了其自研的从容大模型，随后在2023年8月，从容大模型迭代至1.5版本。立足于自研基础大模型，云从科技选择以百亿模型为主体走行业落地方向，试图以此撬动市场需求。从年报数据来看，这一尝试已初显成效。

但外部的挑战始终存在。2024年开年，如Sora、Gemini 1.5等产品不断刷新模型性能的上限，近期Meta发布开源大模型Llama 3，更是为各家基础大模型厂商提出了技术上的新挑战。

云从科技研究院产品总监孙进告诉界面新闻，从容大模型在内部已经历了多轮迭代。1.5版本时，平衡上下文长度、模型性能与推理成本是迭代重点。据孙进介绍，从容大模型2.0版本已经完成，目前正在向3.0迭代，能力迭代的重点将会是多模态能力。

一个亮点在于，通过云从科技自研的多模态大模型基础架构“all in one Transformer”，从容大模型2.0版本可以以文本语言为桥梁，实现语音与视觉两种不同模态数据之间的统一。而3.0版本的迭代目标则是跳过文本直接处理不同模态的数据。

孙进解释称，以数字人为例，当用户以语音形式与数字人交流时，语音数据会首先被转为文字，随后再由语言模型进行理解。“而现在我们的做法是，直接用语言模型处理语音特征，没有转成文本的过程。”

在语音交互、视觉巡检等场景中，这种统一不同模态数据的能力将会为大模型产品带来更大的提效空间，也会成为云从科技竞标商业落地项目时的产品竞争力。

在头部厂商都已完成基础模型能力建设与算法备案的当下，快速实现商业落地并最终跑通数据飞轮是各家厂商谋求长期发展的必然选择。智谱、Minimax、月之暗面等大模型公司都已经对外开放API接口，其中智谱更是于今年3月对外公开了其商业化成绩。

在孙进看来，今年会成为“大模型混战”之后的样板打造期，在明后年则会进入全面推广阶段。样板打造期内，厂商需要面临着技术边界和客户业务边界之间的碰撞，也需要直面同行业的竞争。

一位做AI商业落地的从业者告诉界面新闻，2023年初，行业内“一切都值得重做一遍”的兴奋情绪在逐渐回落。无论是头部还是中腰部客户，2023年整体上都处于观望状态，一直在探索大模型技术究竟应该在什么场景落地。

智能算力紧缺的大背景下，部署成本与推理成本问题一直是阻碍大模型落地的重要因素。目前在私有化部署领域内，云从所提供的700亿参数以上模型需要在计算资源更多、耗电更大的训练机器运行，而340亿参数规模以下的模型则可以在成本相对较低的推理机器上运行。

因此，为了取得商业合作，大模型厂商往往需要平衡模型参数规模与性能、结合客户场景需求给出投入产出表现最佳的技术方案。

“云从的特点就是相对来说比较全面。”孙进表示，因为云从科技的战略一直是做人机协同，所以在视觉、语言、语音三方面都有布局，技术能力更加全面；同时过去所积累的垂直行业经验利于云从科技去训练行业模型，多行业落地的模式也有利于摊薄大模型研发成本。

长期来看，尽管大模型成为重点方向，但云从科技的业务始终未脱离云从人机协同操作系统（Cloudwalk Operating System）概念。

孙进表示，大模型与智能体的结合一直是内部的重点工作。“智能体的精髓就是多模态大模型，通过智能体与大模型的结合搭建业务中台，以大模型定义业务。”他说，“这可能是未来很多厂商都会探索的方向。”