千呼万唤始出来，国风爱好者等到了通义万相的视频生成大模型

时间： 2024-09-20 02:08 浏览量：501

9月19日云栖大会上，阿里发布通义万相视频生成大模型。和诸多同行的限次试用和催你付费相比，阿里颇有诚意——只需登录通义万相官网及通义APP，即可免费体验生成影视级高清视频，APP端更是开放每日不限次使用，为一众影视创作、动画设计、广告设计等领域工作者再添生产“利器”。

PC制作网页

手机端入口：

后发先至，引领国风传承

自OpenAI推出Sora以来，不少科技公司都纷纷推出类似产品，但国人要想轻松愉快地上手使用还需要跨过颇高的学习门槛，甚至在ChatGPT上都有人专门开发智能体定向完善Stable Diffusion的文生视频大模型的提示词，只为了尽快生成想要的视频效果。

针对这样的用户痛点，“后发”的通义万相除了主打免费的诚意“先至”，推出三招直击人心：原生支持中文长文本提示词，具备复杂语义理解和概念组合生成能力，将文字创意精准呈现，对画面内容、空间构图、运动过程、运镜方式等指令均有良好支持，让视频制作更合本心；配合提示词“灵感扩写”功能，哪怕只有关键词，但还没想好具体如何描述元素关系和场景也能一句话生成视频，通过风格提示词生成相应的视频画面，减少操心；还能够将图片作为视频首帧延续生成一段视频，实现生成更可控，画面更精准，让人看了更动心。

笔者以“一个亚洲女孩坐在龙背上从右至左飞过，带有春节的美好祝愿”为例进行了“灵感扩写”，通义万相立刻描绘了更为具体的场景“一个亚洲女孩儿身着传统服饰，兴奋地坐在一条栩栩如生的龙背上，从画面右侧向左侧飞行，龙身蜿蜒了三层，女孩儿的长发随风飘扬，脸上洋溢着幸福的笑容，仿佛在传达着春节的美好祝愿，整个场景充满了欢乐和祥和的气氛”，5分钟的等待生成了5秒的视频，女孩的笑容富有感染力，色彩以红、黄、绿为主色调，背景的点点雪花和大红灯笼渲染出冬日春节的氛围。

对于国内的创作者来说，体现国风内容的表达并不容易。“如果你想的是东方龙，就一定要在提示词里清楚表示，不然就是西方龙的画面。”一位AI视频制作者说，为了生成想要的图像和视频需要耗费大量的时间，并且很难保持风格的一致。即便是同一表述如“龙”，东西方语境下就是截然不同的文化符号，训练时采用的数据集和应用时的提示词都会影响生成的效果。以前在海外的大模型里，中国风还很容易显现其他亚洲文化的影子。而在通义万相的视频里，龙透露着喜庆，女孩明眸善睐，发丝随风拂动，绝对符合国人心目中对国风的期待。

模拟世界，未来任重道远

人们对大模型的期许是要听话，但不能太听话，还要有良好的“想象力”，这就涉及到复杂语义理解和概念组合生成，既要能准确呈现提示词中描述的复杂元素，还要在涉及到多个不同元素时，能准确、有机地结合在一起，核心就是再保证指令遵循能力之后再去发挥大模型的涌现能力。不要小瞧这个顺序，这可关系到大模型是有“think outside of the box”（不落窠臼）的创意巧思还是在“一本正经地胡说八道”。

用户期望模型能生成多样化的图像风格同时保持一致性，这对算法提出了更高的要求。有视频创作者表示，今年年初最常使用的工具还是Pika，现在则主要用Runway Gen-3与Dream Machine。在他眼中，Runway Gen-2、Pika可以认为是上一代模型，从Runway Gen-3开始已逐渐走向新一代视频生成模型，新模型的动态效果明显更佳，通义万相出现在了市场对用户教育基本完成的阶段，需要比拼的是特色和好用。

不过，视频模型的发展仍面临一些共性问题，需要赛道上的选手们努力解决。

首先是生成的时长仍受限制。从时长来看，Pika、Runway Gen2、Dream Machine、Dreamina、Vidu一次生成的视频时长分别为3秒、4秒、5秒、3秒和16秒，通义万相的视频在5秒左右，还不具备时长上的碾压性优势。

其次是对真实物理世界的模拟能力有待提升。为测试物理规律合理性，笔者将提示词设置为“A glass filled with red wine fell off the table, broke the glass, and spilled the red wine”（一个装满红酒的杯子从桌上掉下来，砸碎了杯子，红酒洒了出来），此前Pika显示了桌上的碎片，但杯子看上去没有碎，Runway Gen2和Dream Machine的杯子则没有摔下或碎掉。而通义万相显示的是红酒倾倒而下，成为了砸碎杯子的外力，杯子在红酒中化为齑粉。

从综合表现来看，通义万相推出视频生成功能的速度不是最快的，但以“听懂中国话、最懂中国风”做到了差异化，凭借全新发布自研AI视频生成大模型具备强大的画面视觉动态生成能力，擅长概念理解与组合生成，能够轻松驾驭多种艺术风格，优化中式元素表现，带来影视级画面质感，同时支持多语言与可变分辨率生成。

生成视频追求的是完美的视听体验。此前Pika上线唇形同步功能Lip Sync，只要上传文本或音频，就能让视频人物发声且嘴型完全同步，由AI语音克隆创企ElevenLabs提供技术支持。通义万相还能生成与视觉内容高度匹配的声音特效，实现音画一致，增强视听一体的沉浸感。谁能成为创意工作者最常打开的软件，谁才能成为“笑到最后”的优胜者，留给通义万相的机会和挑战一样多。

本文来源于网络，不代表广西生活资讯网立场，转载请注明出处

上一篇 奉俊昊新作《米奇17》

下一篇 没有了

转发到:

拓展阅读

千呼万唤始出来，国风爱好者等到了通义万相的视频生成大模型

9月19日云栖大会上，阿里发布通义万相视频生成大模型。和诸多同行的限次试用和催你付费相比，阿里颇有诚意——只需登录通义万相官网及通义APP，即可免费体验生成影视级高清视频，APP端更是开放每日不限次使用，为一众影视创作、动画设计、广告设计等[全文]

2024-09-20 02:08
奉俊昊新作《米奇17》

根据科幻小说《米奇7》改编的影片《米奇17》将于明年1月31号上映，预告片今日上线。新晋蝙蝠侠罗伯特·帕丁森在片中扮演可复活的消耗品米奇，每当面临危险时米奇便挺身而出，死后会借助克隆体复活，同时保有之前的回忆——前往冰雪星球殖民的探险队借此[全文]

2024-09-19 03:56
草原上的沙地“医生”

编者按：2021年全国两会期间，参加内蒙古代表团审议时，习近平总书记指出“统筹山水林田湖草沙系统治理，这里要加一个‘沙’字”。如沙地中不老的榆树，如原野里茂盛的草丛，扎根内蒙古自治区锡林郭勒盟正蓝旗浑善达克沙地的科学家们，把青春献给草原，把[全文]

2024-09-19 03:47
非法滞留近5个月的菲船只撤离，中国海警发声→

中国海警局新闻发言人就菲非法滞留中国仙宾礁的9701号船撤离发表谈话中国海警局新闻发言人刘德军表示，4月17日以来，菲海警9701号船非法滞留中国仙宾礁近5个月，菲方行径严重侵犯中国领土主权，严重违反《南海各方行为宣言》，严重破坏地区和平稳[全文]

2024-09-16 03:38
一年卖出 80 万台，AI 硬件开启猿辅导的「第二曲线」

摘要AI 技术之外，最重要还是找准用户需求。在一年前正式推出学练机时，猿辅导还是这一赛道较晚的入局者。但一年过去，「小猿学练机」一年销量飙升至 80 万台、收入达到 30 亿元。据沙利文数据，2023 年 8 月至 2024 年 7 月，小[全文]

2024-09-15 03:44
总投资5.5亿元，元亨光电华中LED新型显示产业园项目开工

9月11日上午，河南利贞科技有限公司元亨光电华中新型显示产业园项目在河南省信阳市新县先进制造业开发区兰河园区开工建设。县领导李晓亮、陈秀洪、胡光志、吕继文、李涛出席开工仪式。深圳市元亨光电股份有限公司董事长朱海涛和元亨光电公司高管、利贞科技[全文]

2024-09-15 03:41

信息排行