短视频制作引擎别玩ChatGPT了，更酷炫的AI视频创作工具来了

用户投稿 2025年09月29日 18:45:04 321 0

别玩ChatGPT了，更酷炫的AI视频创作工具来了

当我还在跟ChatGPT聊天时，AIGC圈子里已经刷起了新玩意儿——

AI生成的乔布斯，他仿佛从画中醒来，对着镜头侃侃而谈ChatGPT，嗓音也颇似原声。

据作者“汗青”介绍，视频中的文案选自于他与ChatGPT的对话，乔布斯的形象由AI作图工具Midjourney生成，AI拟声工具ElevenLabs提供了嗓音复刻，最后通过AI视频工具D-ID将图像转为视频。

借助类似的AI工具，网友用“魔法”生成的纸片人都能动起来了，甚至还能轻松创造一个自己的数字分身。

AIGC降低了创作门槛，越来越多的人正试图让AI参与内容创作，从文案、录制到配音、剪辑，几乎可以让AI全包了。据国外商业咨询机构Acumen Research and Consulting预测，若考虑下一代互联网对内容需求的迅速提升，2030年AIGC市场规模将达到1100亿美元。

近年来，AI对话、AI绘画、AI语音技术其实都有一定的发展，而相对来说，视频领域的AI模型研发和应用才起步不久。像D-ID这样仅需一张静态图片就能创建虚拟人视频的技术，属实令人惊奇。

目前国内外有哪些AI视频创作工具？AI又将给视频内容生产和交互体验带来什么改变？本文对此进行了盘点和分析。

AI拼接素材，套上模板秒出视频

一般视频创作包括这些环节：写脚本/文案，拍摄视频或寻找第三方素材，剪辑素材，配音，配乐，添加转场、特效、字幕、标题、封面图等。

其中，AI现在已经可以辅助完成很多任务了，比如图文智能匹配视频素材、AI自动剪辑、AI抠像、AI换脸、画质优化修复。

“图文成片” 的功能在各平台推出的剪辑应用中十分常见，抖音的剪映、快手的快影、百度的百家号、B站的必剪都支持根据文案，一键拼接图片和视频素材，并同步生成字幕和配音。

输入的文案可以参考AI助手的回答。举个例子，“养猫会对一个人产生什么影响”，ChatGPT回答说养猫能减压缓解焦虑、增强社交能力、提高心理健康、增加运动量，我们可以在此基础上进行修改再导入剪映。

剪映不到一分钟就自动生成了视频，画面跟文案内容基本符合。如果对素材不满意，比如想把静态图片换成视频，可以到在线素材库中搜索更合适的进行替换。

值得注意的是，这些素材往往来源于网络或第三方服务，比如免版权图库Unsplash、Pexels，AI剪辑应用所做的是通过AI和机器学习对文案进行语义分析，分镜头处理，智能匹配相应的画面。

因此，一键图文成片对创作者最大的帮助是节省搜集素材的时间，减少人工剪辑劳动量，通过自动化、模板化的方式提高视频生产效率。

类似的视频自动剪辑工具还有“Lumen5”，主打长图文转视频 ，提供了大量视频模板，操作上门槛更低，像制作PPT一样拖曳文字即可转成画面。Lumen5自2017年推出至今，官网介绍已有超100万家企业客户将其作用于社交媒体营销和传播。

图源Lumen5

“vidyo”出自于印度的AI初创团队，支持长视频转短视频 ，通过AI语音识别技术可以从素材中自动剪辑出精彩片段，适用于直播视频切片、播客剪辑，不过目前视频语言仅支持英文。

图源vidyo

尽管目前视频创作软件的AI功能以文字匹配视频素材为主，但之后可能会加入更多AIGC工具。

例如海外的AI视频工具“Fliki”，擅长短图文转视频，输入Twitter等博客链接即可快速生成短视频，在图片素材上它还提供文字生成AI图像，由DALL·E提供技术支持。

图源Fliki

“Copydone”出自于国内AIGC初创公司，支持小红书、淘宝等各平台AI营销文案生成，同时也能根据文案自动生成配图或拼接视频。

图源Copydone

海外AI视频网站“QuickVid”集成了GPT-3、DALL·E 2等AI生成图文的能力 ，用户只需给定一个视频主题，剩下的都可以自动生成。不过它在二次编辑上的自由度和丰富性比较有限。

图源QuickVid

此外，视频创作中的特定需求也可以尝试用AI实现。比如AI修复老视频已有很多热门案例，历史资料、早年的影视片段都能通过“Video Enhance AI”等视频增强软件提升画质和分辨率。

图源B站

让照片说话，跨模态AI做到了

现在的AI只能算是辅助视频创作的小助手，如果想要原创度更高、从无到有地快速创作视频还比较困难，但更强大的跨模态生成视频的模型 （例如文字生成视频，图像生成视频）已经在路上了。

文字生成视频，除了从已有素材库中拼接而成，实际上还有更接近于人类的工作方式，就像AI绘画模型一样学习文本和图像的抽象概念。

2022年5月，清华大学曾联合智源研究院发布“CogVideo”，这是国内首个开源的文本生成视频模型。在其Demo网站中，选择“青年女子在餐厅里喝奶茶”就可以看到AI生成的4秒视频，分辨率为480×480。

图源CogVideo

在设计模型上，CogVideo含94亿参数，将预训练文本-图像模型（CogView2）有效地利用到文本-视频模型，并使用了多帧率分层训练策略。

CogVideo生成的32帧的4秒剪辑

从技术本质上来看，视频就是一帧帧的连续图像，AI文字生成视频也可看作文字生成图像的一种延伸。 大致原理就是通过文本生成几个单帧的图像，再用插值算法在几个帧之间绘制图像，生成前后连贯的视频。

之前Disco Diffusion走红时就有玩家利用其动画模式生成2D或3D视频，由此也延伸出一些使用门槛更低、创作更简便的AI生成视频应用。

比如AI视频网站“Kaiber”，用户输入图像或文本描述，也可以从预设中选择几个词，就能快速生成4种视频结果。

图源Kaiber

近期美国流行摇滚乐队Linkin Park发布的新MV《Lost》，就是由Kaiber为其制作的动画。

图源《Lost》

不过目前跨模态生成视频的AI模型仍处于探索阶段，谷歌、Meta等大厂去年都发布了相关研究论文，只有演示案例，具体产品还未上线。

据Meta官网介绍，“Make-A-Video”加速了文本到视频模型的训练（它不需要从头开始学习视觉和多模态表示），也不需要成对的文本-视频数据，却可以实现丰富的文字生成视频，图像生成视频（让单个图像或两个图像间动起来），以及改变原始视频的风格。

图源Make-A-Video

谷歌发布的“Imagen Video”和“Phenaki”也能实现类似以上的效果，并且Phenaki可以根据一系列提示生成2分钟以上的长视频。

太空行走的烟花

使用的提示：

宇航员穿过火星上的水坑的侧视图

宇航员在火星上跳舞宇航员

在火星上遛狗

宇航员和他的狗看烟花

图源Phenaki

人工智能公司Runway曾参与构建了第一个版本的Stable Diffusion，最近他们又发布了一个新的视频生成器“Gen-1”，即将开放内测，宣称可以把视频转换成任意风格。

根据Gen-1官网演示，用户提供一张参考图，就能对原视频进行指定风格化的渲染，或者用文字指示修改视频中的部分素材，甚至还可以输出3D模型渲染和定制视频。

图源Gen-1

在AI生成3D短视频 方面，近期国内的深氧科技完成了千万元级天使轮融资，引入GPT3.5、Transformer、Diffusion Model等AI技术红利，其发布的O3.xyz引擎V1.0版本支持一站式生成3D短视频内容，百万粉博主“特效卡卡西”等创作者已加入内测。

可见跨模态AI生成视频正在加速发展中， “用嘴做视频”，未来在短视频、影视、设计、游戏、电商等诸多行业都存在应用的可能。

回到开头提到的“D-ID”，生成数字人/虚拟分身 也属于图像生成视频的一种类型，这类工具目前在企业培训和营销方面的应用案例比较多。

2020年推出的AI视频创作产品“Synthesia”显示已有数千家公司在使用，用户可以从现有演员库中选择或上传自己的视频来创建AI形象，然后输入脚本，让AI配音、拼接素材就能输出视频了。

图源Synthesia

Synthesia通过训练神经网络来达成逼真的合成效果，相比传统视频制作来说，减少了真人出镜录制等环节，能节省制作费用和周期，而且能一键生成多国语言的视频，便于本土化服务。因此，企业多用于大规模生成员工培训、产品入门演示、市场营销等视频。

D-ID则在更早以前就开始研发图像处理技术，曾与MyHeritage合作推出“深度怀旧”计划而闻名，借助AI工具，用户可以让已故亲人的静态照片变成栩栩如生的动态视频。

最近乘着ChatGPT的热潮，多种AI工具组合制作的视频被更多人看见了，D-ID的体验门槛较低，即使是不懂视频创作的新手，只要上传一张图片，几分钟内就可以生成有人物解说的视频。

图源D-ID

D-ID自动为人物添加了一系列面部动作，会模拟一些轻微的头部运动，不过有时表情显得有点怪异，太逼真的照片可能会令人产生“恐怖谷”的反应。

同时，用户无法上传涉及政治、性、犯罪、名人、歧视性图像，D-ID会提示违规风险。这意味着AI生成视频技术同其他生成内容一样会面临版权、伦理等问题。

下一波AIGC浪潮，我们如何应对

去年Stability AI的CTO Tom Mason曾判断，继文字生成图像后，下一波浪潮肯定是视频、音频和3D。

当AI可以写文章、画画、做视频，试图包揽大部分创作任务时，人类接下来该做什么呢？

这里仅谈谈我的思考，首先技术人员可以继续开发和完善AI模型。在TikTok的官网上，已经挂出了AIGC方向机器学习工程师的招聘需求。

图源TikTok Career

TikTok表示，“AIGC最近的突破使我们相信可以将AIGC技术用于商业目的，尤其是创意制作。想想AI生成/辅助的广告创意脚本，甚至是AI生成的商业图像和视频，它们将永远改变创意制作行业。”

当下的AI视频模型还不能很快生成像AI绘图那样高质量的作品 ，比如存在视频模糊、动作不自然、缺少细节等问题。但随着国内AIGC的技术发展，相关场景应用生态可能有很大的想象空间 ，包括上文提到的一些AI技术公司目前已经开始提供付费服务了，为个人和企业有针对性地提高内容生产效率。

对于内容创作者来说，与其担忧会不会被AI取代，不如去学习认识和使用AI工具，让AI代替重复性的琐碎工作，将更多时间花在自己的核心优势上，产生更高质量的内容。

的确有了AI的加入，内容竞争会愈发激烈。有创作者说D-ID出现后，“所有念稿式、新闻播报式的纯搬运类视频都将受到巨大冲击”。

从用户角度出发，我想只要是高质量内容，即使是AI批量生成的又如何？ 我们担忧的其实是低质内容的泛滥。

平台和用户都需要避免AI被滥用，比如生成虚假、仇恨、歧视或有害的内容，甚至是引发诈骗等犯罪行为。谷歌曾提到出于安全和伦理的考虑，在Imagen Video的内部试验中应用了输入文本提示过滤和输出视频内容过滤，但目前仍存在重要的相关风险，暂时不会发布两个视频生成模型的代码或Demo。

总之，AI技术一方面大大降低了从文本到视频内容创作的门槛，另一方面AIGC也推动着内容行业革新，目前至少能达到一定程度的降本增效，但发展初期还未建立起新的规则和秩序，最终如何改变行业还得看人的作用。

P.S.：本文提及的部分AI视频工具网址 ，可以关注“ 新榜 ”，在公众号对话框回复“ AI视频 ”获取。

进击的中国大模型：1万元能做2725条1080P视频？火山引擎谭待再提性价比

本文来源：时代周报作者：何珊珊

国内的视频生成大模型又有了新进展。

6月11日，火山引擎召开Force原动力大会，重磅发布豆包大模型1.6、视频生成模型Seedance 1.0 Pro等核心技术，并推出AI云原生系列产品。

2024年火山引擎发布豆包大模型，掀起国内外AI大模型降价潮。如今，火山引擎总裁谭待再次打出性价比。

谭待现场介绍，豆包视觉大模型Seedance 1.0 pro模型每千tokens仅0.015元，每生成一条5秒的1080P视频只需3.67元，为目前行业最低。这意味着，理论上，1万元预算可以生成2725条5秒的1080P视频。此外，豆包1.6首创按“输入长度”区间定价，深度思考、多模态能力与基础语言模型统一价格，综合成本只有豆包1.5深度思考模型或DeepSeek R1的三分之一，降低企业使用成本。

目前来看，国内外多款大模型已覆盖文字、图像、视频、语音、音乐等内容生成品类。国外，以OpenAI、Google为核心的国际巨头持续优化；国内，生成式大模型已在多模态应用实现局部领跑，DeepSeek、豆包大模型持续提升。当AI技术从Agent向Agentic时代跃迁，国产大模型应该向什么方向发力？

性价比策略推动行业应用

今年2月，中国的DeepSeek横空出世后，国内外AI大模型企业都坐不住了。

2024年5月，字节跳动在豆包大模型发布会上宣布要将企业级产品定价为0.0008元/千Tokens，相当于1元能买约200万个汉字，比行业价低99.3%，掀起AI降价潮。此后，阿里、百度纷纷跟进大模型降价。OpenAI首席执行官Sam Altman随即宣布，免费版ChatGPT将在标准智能设置下无限制使用GPT-5。

另外，凭借文生视频大模型Sora，OpenAI的ChatGPT会员月费一度从2023年2月的19.99美元涨至2024年12月的200美元，涨价约10倍，为全球最高使用定价。印度的创业者甚至一度在与OpenAI高层会面时，呼吁降低AI模型价格以促进普及。

而在中国大模型迅猛的成长攻势下，曾开启AI大模型使用定价的OpenAI，随后也选择了降价和免费策略。

时代周报记者制

6月11日，在视频生成方面，豆包视频生成模型再次提速。

目前，豆包大模型已涵盖多模态、视频、图像、语音、音乐等模型品类。其中，豆包视频生成模型Seedance 1.0 pro支持文字与图片输入，可生成多镜头视频，每生成一条5秒的1080P视频只需3.67元，为目前行业最低。

在国际知名评测榜单 Artificial Analysis 上，Seedance在文生视频、图生视频两项任务上均排名首位，已超越Veo3、可灵2.0等优秀模型。

即梦和豆包目前均搭载了Seedance。6月12日，时代周报记者使用豆包发现，目前在推拉摇移远近特写等镜头表现上，Seedance 1.0 pro均十分出色。从生产效率来看，以图生视频需要一个“推镜头转特写”为例，通常输入文字指令后，豆包等待约1~3分钟即可生成，且特写画面清晰度较高。而采用同一张照片和相同指令时，可灵则显示需要排队等待大于3小时才可看到效果。

左为豆包，右为可灵

从应用领域来看，越来越高质量的AI生成视频从根本上重塑了内容生产的逻辑与模式。在电商行业，无缝多镜头、多动作多主体互动等能力可以让人在产品展示的时候更加丰富。在影视领域，新模型的能力可以帮助从业人员快速验证分镜与叙事逻辑，减少前期筹备成本。

火山引擎总裁谭待在媒体采访中透露，此次价格策略并非单纯降价，而是基于技术底层进步的价值重构，以推动行业应用。

“技术在不断进步，肯定能持续优化成本。我们宗旨是每当做到一定程度，就尽最大可能性把技术红利释放出来，让业界所有的开发者和企业都受惠，让AI的应用发展更快。”谭待表示，去年豆包大模型把AI使用价格降低99%，很多公司都跟随这一策略，助力中国的大模型发展起来。目前，在行业应用方面，豆包大模型服务着全球TOP10手机厂商中的9家、8成主流汽车品牌、70%的系统重要性银行及超5成985高校。

今年四月，国际数据公司（IDC）发布《中国公有云大模型服务市场格局分析》报告，数据显示，2024年是中国公有云大模型市场的“爆发元年”。从数据上看，上半年日均调用量仅为963亿Tokens，但至12月已飙升至9522亿Tokens，半年内增长近10倍。IDC将爆发式增长归因于技术、场景、政策三大驱动力共同推动带来的结果。多家云厂商通过算法优化和硬件升级，将大模型推理成本降至“厘时代”。

国产大模型突围领跑？

IDC数据显示，2024年中国生成式AI基础设施规模已达356亿元人民币，其中，公有云大模型调用量达114.2万亿Tokens（不包含出海群体使用的MaaS平台的调用量及各大模型APP上的调用量），同比增长近10倍。火山引擎以46.4%的市场份额领跑，百度智能云、阿里云以19.3% 的份额紧随其后，腾讯云、中国移动、天翼云等公有云厂商整体占据15%的市场份额，已形成“一超多强”的竞争格局。

国内竞争的同时，也需将视野投向海外市场。

此前，在国内外开启AI大模型诸神之战后，许多业内人士曾因国产大模型与ChatGPT之间的差距大小产生激烈争议，不过业内普遍认为，ChatGPT的先发优势会导致国内外大模型效果差距进一步拉大。

但进入2025年后，英伟达CEO黄仁勋在5月发布的2026财年第一财季报告电话会议上称，中国的人工智能竞争对手正在填补美国公司留下的空白，技术愈发强大，中美之间人工智能产品的差距正不断缩小。他多次对外强调中国是全球最大的人工智能市场之一，全球一半的人工智能研究人员在中国，认为赢得中国市场的平台将引领全球。

在火山引擎大会现场，谭待透露，豆包大模型模型能力已跻身全球行业前列。在GPQA Diamond、AIME25、MultiChallenge的测评中，豆包1.6版本均以优异成绩，在复杂推理、竞赛级数学、多轮对话和指令遵循等能力上，跻身全球第一梯队。

此外，Agent作为个人或企业实现AI在现实世界应用最后一公里的工具，火山引擎AI云原生再次全栈升级，以更好地支持Agent开发与应用。

谭待对Agent的市场应用前景充满信心，他表示，大模型在飞速进化，从感知AI，到生成式AI，再到Agentic AI。希望大模型不再仅仅完成信息的识别、处理和生成，而是能够自主推理、规划行动并执行任务，从而成为构建复杂业务闭环的智能体。

“如果说2024年是中国大模型应用的元年，那么2025年将很可能是中国Agent落地的元年，Agent将逐步进入企业的各个业务流程。”谭待称，在这个阶段，深度思考、多模态理解和工具自主调用是模型进化的关键方向。

事实上，站在2025年的时间节点，中国大模型已不再满足于 "性价比之王" 的标签，在激烈的技术竞争的同时，不断拓展应用边界，推动AI进入更广阔的市场才是未来的方向。

视频引擎有什么用?

视频引擎是一种软件,主要能够为使用者提供搜索视频、搜索音频、线上会议等功能。视频引擎有着较为广泛的使用,目前市场上有很多视频引擎软件,这些软件的功能...

巨量鲁班与巨量引擎有何不同?-ZOL问答

巨量引擎是字节跳动旗下的一个综合数字营销平台,其核心目标是让各类企业,无论大...如果你希望在今日头条、抖音、火山小视频、懂车帝等平台上投放广告,只需与巨...

俄罗斯夸克引擎视频怎样保存?

1可以通过以下方式保存俄罗斯夸克引擎视频:-将视频下载至本地硬盘。-使用在线视频下载工具,如迅雷、优酷、爱奇艺等。-复制视频链接,使用第三方下载工具...

虚幻引擎优质教程推荐-ZOL问答

网络上关注虚幻引擎这个话题下面有很多专业人士在讨论你可以看看他们推荐的教程比如UnrealEngine4入门到精通这套视频课程口碑很好推荐你看一下ue官方论坛...

俄罗斯引擎里面视频怎么播放?

1在俄罗斯引擎里面播放视频是可以的。2可能是因为你的网络连接不稳定或者视频格式不兼容导致无法播放。3如果你遇到了播放问题,可以尝试更换网络或者使用其...

电脑版俄罗斯搜索引擎怎么用?

使用方法:一、打开浏览器,输入Yandex的浏览器搜索框中输入搜索。二、然后在搜索狗结果中,根据需要单击其中一个,然后在打开的页面中单击本地下载,然后在弹...

夸克俄罗斯搜索引擎怎么看视频-业百科

夸克俄罗斯搜索引擎怎么看视频,1、只需要点击打开软件,然后进入软件中,点击右下角红框中的图标,即可进入到下一个页面中。2、在这个页面中,可以看到我的手机中有...

yandex里的视频怎么下载?

1可以通过第三方软件或网站下载yandex里的视频。2由于yandex视频的版权保护问题,官方并没有提供直接下载视频的功能。但是可以通过使用第三方软件或网站来下...

创意工坊视频怎么播放?

1、找到已安装2、选择下载的视频,右键选择在资源管理器中打开3、看到.mp4格式文件,打开就行直接进入创意工坊,然后点开想玩的MOD就可以直接看了。创意工坊...

gpu-z视频引擎不显示正常吗?

回答如下:通常情况下,GPU-Z视频引擎应该能够正常显示相关信息。然而,如果您遇到了显示异常的情况,可能是由于以下原因之一:1.驱动问题:请确保您的显卡驱...

本文地址： http://hnlzpx.com/article/7bb921ca.html

文章来源：用户投稿

短视频制作引擎 别玩ChatGPT了，更酷炫的AI视频创作工具来了