商汤科技震撼发布Vimi:革新可控人物视频生成技术

2025-02-06 17:29:09

编辑:阳阳资源网

近日消息,全球领先的人工智能企业商汤科技在2024世界人工智能大会上,隆重推出了其最新研发成果——Vimi,一款革命性的可控人物视频生成算法模型。

商汤科技震撼发布Vimi:革新可控人物视频生成技术

Vimi的亮相不仅标志着商汤科技在AI视频生成领域的又一里程碑,更因其卓越的性能和创新性,被评选为本届大会的“镇馆之宝”。

Vimi作为商汤科技基于其强大的日日新大模型能力研发的产物,实现了前所未有的视频生成灵活性。它能够灵活接收来自动作视频、精美动画、丰富声音素材乃至文字描述的多元化输入,作为驱动元素,精准地操控并转化人物类图片,最终生成与目标动作完美匹配的人物视频。这一过程不仅展现了AI技术对于复杂场景的高度适应性,也体现了商汤在视频生成技术上的深厚积累。

尤为值得一提的是,Vimi在可控性上的卓越表现。它超越了传统图片表情控制技术的局限,不仅能够细腻地调整人物的表情变化,更实现了对肢体动作的精准操控。这一突破性的能力使得Vimi能够生成出既符合逻辑又生动自然的视频内容,同时,在头发、服饰、背景等细节处理上也达到了前所未有的精细度,支持光影的自然变化,为观众带来沉浸式的视觉体验。

在视频生成的稳定性与时长上,Vimi同样展现出了非凡的实力。它能够稳定地生成长达1分钟的单镜头人物视频,这一成就突破了现有大模型AI视频生成在时长上的限制。更重要的是,随着视频时长的增加,Vimi生成的视频画面质量始终保持如一,不会出现劣化或失真的情况,确保了视频内容的连贯性和高质量。

商汤“书生・浦语”2.0大语言模型正式开源:可提供免费商用授权

商汤科技是一家行业领先的人工智能软件公司,在近日,商汤科技与上海 AI 实验室联合香港中文大学和复旦大学今日发布了新一代大语言模型书生・浦语 2.0(InternLM2)。

商汤“书生・浦语”2.0大语言模型正式开源:可提供免费商用授权

据介绍,InternLM2 是在 2.6 万亿 token 的语料上训练得到的。沿袭第一代书生・浦语(InternLM)设定,InternLM2 包含 7B 及 20B 两种参数规格及基座、对话等版本,继续开源,提供免费商用授权。

目前,浦语背后的数据清洗过滤技术已经历三轮迭代升级,号称仅使用约 60% 的训练数据即可达到使用第二代数据训练 1T tokens 的性能表现。

与第一代 InternLM 相比,InternLM2 在大规模高质量的验证语料上的 Loss 分布整体左移,表明其语言建模能力增强。

通过拓展训练窗口大小和位置编码改进,InternLM2 支持 20 万 tokens 的上下文,能够一次性接受并处理约 30 万汉字(约五六百页的文档)的输入内容。

下面表格对比了 InternLM2 各版本与 ChatGPT(GPT-3.5)以及 GPT-4 在典型评测集上的表现。可以看到,InternLM2 在 20B 参数的中等规模上,整体表现接近 ChatGPT。

商汤“书生・浦语”2.0大语言模型正式开源:可提供免费商用授权

商汤科技携手中国联通深化合作,共筑AI基础设施发展新篇章

近日消息,商汤科技于7月19日至20日在中国联通合作伙伴大会期间,宣布与中国联通达成战略合作伙伴关系。此次合作聚焦于数字通信、行业智能化转型、AI基础设施建设、算力服务生态系统及全球算力供应等方面,旨在为大模型驱动的AI产业发展奠定坚实的基础设施基础。

商汤科技携手中国联通深化合作,共筑AI基础设施发展新篇章

根据合作协议,双方将在大模型及应用领域开展多元合作,共同为行业客户提供 AI 大模型基础设施即服务、AI 即服务、模型即服务等多种服务模式,同时联合内外资源,携手形成以上海市场为初始的大模型方案。

商汤科技联合创始人、大装置事业群总裁杨帆表示,算力、大模型、数据都会将被基础设施化,并且会形成不可分割的整体,从而降低 AI 的使用成本和门槛,让更多人都能高效开展 AI 的研究和创新,推动 AI 产业可持续发展。

谈到运营商与 AI 企业的合作时,杨帆认为,AI 企业的优势在于技术平台和软件能力,运营商的优势则是海量的场景覆盖,双方优势整合将能够更好推进 AI 基础设施的建设。

据此前报道,今年 6 月,商汤科技发布公告宣布拟配售 B 类股份,总筹 20.08 亿港元,有多家战略投资人及头部海外基金入股,现有股东增持,募集资金将用于大模型研究及产品开发等。

相关推荐

版本所有Copyright © 2009-2019 hnqyjy.cn
Copyright 渝ICP备20008086号-34