拓宽行业应用场景多模态大模型加速通用AI进程

人民网 2024-02-26

人民网北京2月26日电（焦磊）只需输入文本指令，便可生成60s的视频内容，并在画面效果、视频时长、流畅度和逻辑性等方面具备惊人效果……近日，OpenAI发布的文生视频大模型Sora迅速引发人们关注。业内分析认为，该项新产品或将促使大模型厂商加大对多模态大模型的研发投入，并进一步推动AGI（通用人工智能）进程。

一直以来，视频领域便是被普遍看好的AI应用落脚点之一。继可生成图文的ChatGPT之后，Sora的发布迎合了业内对多模态大模型的期待。

模态即每一种信息的来源或形式。人们在信息获取、环境感知、知识学习与表达等方面都是采用多模态的输入、输出方式。

华福证券研报表示，相比单模态，多模态大模型同时处理文本、图片、音频以及视频等多类信息，与现实世界融合度高，更符合人类接收、处理和表达信息的方式，与人类交互方式更加灵活，表现得更加智能，能够执行更大范围的任务，有望推动AI迈向AGI。

此前，大模型在各个领域的应用主要集中在文生文、文生图之上，而在文生视频领域却进步缓慢。业内分析表示，此次Sora的发布，将促使多模态大模型成为生成式AI的重点发展方向。未来人机交互将通过文字、视觉、语音等多维度沟通，进而提升效率，逐渐向AGI方向迈进。

值得一提的是，国务院国资委日前召开“AI赋能产业焕新”中央企业人工智能专题推进会。会议提出，开展AI+专项行动，强化需求牵引，加快重点行业赋能，构建一批产业多模态优质数据集，打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态。

视频大模型的创新进步，也引起人们对相关内容行业变革的思考。

浦银国际分析认为，对于短视频，Sora提升了内容供给及创作质量，并有效降低了门槛和成本，或将进入“全民创作”时代。而长视频对内容质量等专业化要求较高，AI生成视频在精准度、可编辑性等方面仍需进一步打磨，长期发展空间广阔。

IDC中国研究总监卢言霞认为，Sora将最先应用于短视频、广告、互娱、影视、媒体等领域。在这些领域采用多模态大模型能力，辅助人类员工生成视频，既可以提高生产速度又可以提高生产数量，还可以创造全新的视觉感受，能够帮助企业真正实现降本增效、提升用户体验。

与图文相比，视频内容所包含的数据量巨大，因而引发人们对算力需求的关注。业内分析认为，AI视频对算力的需求将会是几何式增长，算力限制可能是影响文生视频类应用开放使用的重要因素。

卢言霞表示，多模态大模型对算力的消耗更高，算力的可获取性以及成本将是挑战之一。此外，多模态大模型将带来更严峻的安全挑战。一方面多模态大模型将读取更多的图像、视频类数据，这些图像视频数据是否合规是否安全，需要得到保障；另一方面，生成视频与真实世界之间的差异，需评估是否会影响到人身安全、社会稳定、企业安全等。

根据华泰证券研报，2023年实际诞生文生视频大模型达到数十个，全球用户数量超过百万级别，但目前多数视频模型仍处于产品早期阶段。从创作端看，市场上已公开的大多数模型出自初创公司和小型技术开发团队，包括Runaway、Pika等，且目前已呈现较为可观的完成效果和商业模式。（实习生张泊洋对此文亦有贡献）

责任编辑：王琳

拓宽行业应用场景 多模态大模型加速通用AI进程

拓宽行业应用场景多模态大模型加速通用AI进程