0731-88575016

首页 > 产品中心>>>竞技宝官网app
详细内容

竞技宝官网app·浅谈当前的AI剪辑工具

发布时间:2024-07-31 03:01:17 来源:竞技宝app下载官网 作者:竞技宝官网地址

  视频分析:利用人工智能的分析和理解能力,提炼出美术设计所关注的核心信息,将大量缩成关键要点,从而提高寻找灵感的效率。

  素材搜索匹配:基于视频分析的AI技术,通过对素材库中的视频进行分析、解构和标记,再根据用户提供的关键词匹配最适合的视频内容,提高视频类资源制作的效率。

  而最近在视频生成方向,各家视频生成厂商接连内卷,先是快手可灵公布,然后是Luma公布,紧接着Runway公布了Gen3模型。用户能够在没有素材或者仅有图片素材时,使用这些工具进行文生视频、图生视频生成视频素材,随着行业的发展,当前视频生成也已发展到抽多几次还勉强能用的阶段。加上目前各家视频生成能力平均成本为几毛钱/1s,也就意味着平均几块钱能生成一个能用于生产的视频素材片段,相比以前将静态图片变成动态的K帧动作1人1天的工作量成本,AI现在已经能在某些场景下起到替代人力的作用了。

  在和业务同事访谈时,问到如何看待当前AI视频生成能力时,业务同事是这样表示的,偶尔抽多几次,能抽到自己想要的东西。但有时候还是抽到想砸电脑,生成的东西总差点意思,想改又改不了。

  可见,虽然AI能生成视频片段素材,但是存在指令识别不准、无法修改、模糊、主体不一致、物理运动BUG等问题。这导致视频生成仅仅能在视频质量要求较低的场景发挥作用。对于像是高精度的视频诉求,AI无法满足。

  那么,像是视频分析、素材搜索匹配、剪辑工具类的发展情况如何呢?这些能力或多或少有在目前的AI剪辑工具上有体现,因此我特地研究了几家AI剪辑相关的厂商的产品,下面我浅浅盘下。各AI剪辑厂商的发展情况

  提到AI剪辑,第一个肯定是字节旗下的剪映。背靠字节的大模型底层能力、抖音系视频生态提供的庞大剪辑需求量、多年的产品积累,剪映是所有AI工具中较为突出的那一个。下面我盘点下其部分部分AI能力。

  该功能可以基于输入视频素材片段和文案生成,对画面内容进行分析并裁剪,匹配最合适的视频片段进行混剪视频,然后加上BGM、字幕、配音,并支持导出与继续编辑。

  其中文案支持AI生成,用户只需要提供产品名称和相关的属性,AI便能生成多个文案供用户挑选。但个人觉得这个功能只能用于辅助激发创意,AI生成的结果往往不能直接使用,或者说生成的效果比较差。

  体验下来,个人觉得这功能有点别扭,可能只能满足非企业用户(ToC)和成片质量较低的企业用户(ToB)的需求。(不是说功能不好,因为我是B端用户,不满足我的需求。)

  营销成片这个功能,很明显是面向企业用户(ToB)的。企业会需要在批量产生视频素材的时候需要这类功能,那么企业的核心诉求是较低成本产出符合业务最低限度诉求的大批量素材,其中的要点是低成本、符合业务最低限度诉求、大批量。

  剪映的营销成片这里有个问题,在生成时可配置的内容太少了,比如混剪逻辑、字体颜色、BGM这些内容都无法配置,用户只能按AI识别的内容获得生成的结果,这是个不可控的黑盒。对非企业用户(ToC)来说,这是个很好的功能,他能降低使用门槛。但是对企业用户(ToB)来说,这些不能配置的内容会降低AI成品的质量,导致不符合业务最低限度诉求。假设业务需要按音乐节拍混剪、字体使用制定字体、配音需要使用不那么呆AI配音,那么现在的营销成片便无法满足,需要人力额外花费时间修改。

  所以ToB是最好能够提供配置能力,在一开始预设好该配置的参数,然后提交生成任务给计算机,人力就释放出来去干其他事情了。而不是让人力守在电脑前,一个个审核,然后去一个个编辑。如果用户有精力一个个编辑修改,还不如从一开始就自己混剪,批量混剪一批视频,也才几个小时的工作量,都能和一个个编辑修改持平了。

  对于成片质量要求较高的企业用户来说,AI的高黑盒程度导致AI成片无法满足符合业务最低限度诉求,因此需要额外的人力成本进行修正,所以也无法满足低成本和大批量的需求了。

  该功能可以识别视频人物主体位置,从而修改视频的运镜,保证人物主体在中心位置。这适用于运镜较多的人物视频,用于跟踪人物主体。

  图文成片这个功能有点和营销成片类似,但是生成的是图片拼成的视频,而且更多面向于非企业用户(ToC)。

  该功能也是基于AI生成或者自己撰写的脚本文案,再选上合适的AI音色,最后选择自行上传素材匹配 或是 交给剪映智能识别匹配。剪映匹配的内容支持表情包和素材,这明显是给非企业用户生成娱乐向内容用的。

  尝试了下,剪映匹配的素材能一定程度上匹配文本内容,给到对应的图片素材。我试了下生成绝区零的宣传视频,结果生成的静态图片素材带有水印,多少有点尴尬。

  这说明这里的图文成片所匹配的素材库,多少有点版权相关的风险,所以这项能力并不能用于企业用户(ToB)的设计场景,还需要等图片素材库和AI匹配算法再发展一会儿。

  而且如果要企业用户(ToB)使用,这项能力和营销成片存在同样的问题,其可配置的内容太少了,AI的高黑盒程度导致AI成片无法满足符合业务最低限度诉求,因此需要额外的人力成本进行修正,所以也无法企业用户(ToB)满足低成本和大批量的需求了。

  这项能力可以在用户上传本人视频的时候,将用户口播的内容翻译成指定语言,并将口型转换成对应语言的口型。在上传视频时候,需要进行本人认证,所以导致无法使用他人的视频,避免直接搬运他人的视频翻译后上传到别的网络。

  目前功能仅支持6种语言,而且转换口型之后,在人物动作幅度或者角度不正的时候,嘴部有一些明显的瑕疵。(有点好奇,后续剪映上线某些较长的语种的时候,会采用怎么样的翻译方案。)

  这里涉及到的功能很多,比如生成文本、文本生成配音、识别字幕、识别音乐、镜头分割、人生分离,就不一一赘述了。

  即创是巨量引擎旗下的一站式智能创意生产与管理平台,用于帮助企业用户在营销场景下提供AI帮助的。相比起剪映,即创的能力直接面向企业用户(ToB)。

  其中的AI工具有视频创作、图文创作、直播创作模块,而视频创作相关的仅有智能成片和AI视频脚本。

  该功能通过添加脚本、音乐、口播等配置能力,利用AI生成多个版本的成片视频。为了方便入门用户和高度自定义用户,即创还提供了一键成片和高阶成片模式。

  一键成片和前面提到的剪映的营销成片一样,可控制的元素太少了(混剪逻辑、BGM、声音等都不可控),只能满足成片质量较低的企业用户(ToB)的需求。而且相比起剪映,即创还无法二次修改,AI生成错误的内容,想救也救不了。

  比如下面的案例,即创会识别脚本中的关键文案,然后生成一些奇怪的特效。关键是这个特效抓得也不准,在成品中意义不明,也无法去掉。

  高阶成片在一键成片的基础上增加了视频前后贴、数字人、配音、音乐、字幕等的自定义选项,这较大程度上解决了一键成片和剪映的营销成片的问题,使得企业用户能较低成本产出符合业务最低限度诉求的大批量素材。

  脚本裂变则是基于已有的脚本进行派生,用AI模仿已有脚本批量生成更多的脚本。相对来说,脚本裂变生成的效果会相对更好,因为等于进行了提示词工程,减少了AI发散的情况。

  AI灵感功能会根据用户当前主体下,历史触达人群、售卖商品、素材偏好、品牌调性、营销偏好等历史信息为用户推荐素材内容,以便激发用户灵感创作。其中AI灵感功能便捷地提供了素材投放数据、视频要点拆解和一键生成类似脚本的能力,方便用户进行创作。

  智能创作云是火山引擎旗下的AI剪辑工具,也是一款面向企业用户(ToB)的AI剪辑工具。其中涵盖的能力有视频混剪、智能脚本工具、自动剪辑成片、视频拆条、视频编辑器、视频裁剪、虚拟背景、智能配音、添加品牌等。

  该能力可对目标混剪素材进行分组,并对每组素材进行排列/组合+内容算法的智能拼接。根据多素材进行视频混剪,裂变出更多视频。适用于矩阵号投放场景,大幅降低营销成本,迅速起号转化。

  相比起剪映和即创的能力,智能创作云的配置项更多,能力更抽象,能满足更多B端业务场景。比如其支持按镜头组设置混剪,而不像剪映和即创完全依赖AI进行视频编排。

  自动剪辑成片支持用户自定义导入图片/视频素材一键生成精美视频,提供卡点、运镜、动画、特效等多种视频效果元素,降低创作门槛,赋能创作表达。

  视频编辑器:类似于剪映的视频编辑器,提供包含音视频裁剪、文字、特效、滤镜、贴纸、转场、字幕、配乐等常用能力。

  视频裁剪:可更改视频尺寸,并在部分有主体的视频中,识别主体位置(类似于剪映的智能裁剪能力)。

  智能配音:将输入的文字转化为智能虚拟人声配音,并支持添加背景音乐,生成MP3或WAV格式的音频。

  除了上面提到的剪映、即创、智能创作云,AI剪辑工具还有很多,比如:汇量科技的playturbo、美图的奇觅、网易的见外工作室、筷子科技……

  我们可以整体发现,各家AI剪辑工具厂家提供的能力,其实和剪映、即创、智能创作云的大同小异。而且,个人觉得大体的功能建设思路差不多,都是:

  工具类产品目的是在业务流程上提供使能与提效的辅助。但是直接给整个业务流程进行辅助难度很大。所以我们需要把复杂的问题简单化。我们可以将业务流程拆解成多个核心环节,同时拆解出每个核心环节所需的能力,并基于这些能力需求提供AI单点能力。相比起直接提供面向整个流程的能力,基于单点诉求提供AI支持反而很简单。因此这种基于业务流程提供AI单点能力支持是很好的AI功能切入点。

  寻找灵感:该环节重点是知道要做一个怎么的视频,这个视频需要达到什么样的目的,并构思其题材、内容、音乐、字幕等相关内容。因此能激发创作者灵感的功能都可视为该环节的内容,比如即创的灵感库。

  制作草稿:将灵感构思落地成脚本稿或者分镜稿,形成视频的主体框架大纲,并与相关的业务人员进行确认与核对。利用AI生成脚本稿的功能属于该环节,比如即创的AI视频脚本、剪映营销成片中的AI生成脚本稿能力。

  收集素材:该环节需要收集用于成片的素材内容,包括但不限于图片、视频片段、特效、配音、字幕、BGM等等。其中AI生成的图片、视频工具都属于该环节。

  剪辑成稿:基于收集到的素材,基于大纲进行剪辑,从而输出成品稿。剪映的各项视频剪辑工具就属于该环节。

  基于这四个阶段的能力建设,各家厂商还会提供将多个流程串联起来的自动化能力。这便是前面提到的结合高频需求串联多个AI能力,构建工作流能力思路。

  如果AI生成的成品准确度够高,那么用户只需要收集到灵感,就可以快速走完制作草稿、收集素材、剪辑成稿三个环节,大批量低成本地生成符合需求的视频内容了。

  因为单点AI能力的辅助提升是有限的,用户一般在实际的业务中会使用到多个单点能力。假设用户使用了AI脚本制作视频的脚本稿,然后使用AI配音能力生成配音,紧接着使用视频拆条功能剪辑视频,最后到视频剪辑器上完成剪辑。在多个功能上跳转、传输素材文件十分耗费人力,而且其中存在很多机械的重复工作。

  因此,基于这些机械重复的场景,将多个AI单点能力串联成工作流,能进一步提升业务的效率,让用户做到一站式输入输出,极大释放生产力。

  当前AI剪辑工具的两个阶段可以理解为各家厂商在尝试构造AI数字员工的各项剪辑能力,各家厂商需要持续发力,将AI剪辑能力建设到一定程度,以让AI能够覆盖各个视频制作流程,并一定程度能够替代人力。这等同于跑通了数字员工的前三个阶段。

  然后各家AI剪辑厂商可以采集用户AI的使用数据、参数设置、成品数据等内容,用于训练AI数字员工所需的AI模型。AI数字员工适用于AI Agent框架,即感知、计划、行动三个模块。

  计划模块则是我们所训练的AI模型,计划模块需要感知用户的需求、素材输入、业务的数据等外部信息,输出所需要产出的视频内容需求,然后调用合适的AI剪辑能力,进行视频的产出,实现视频的无中生有。

  如此一来,各家AI剪辑厂商就可以配备自己的AI视频员工能力,帮助各行各业自动化、智能化生产视频内容了。

  既然各家的核心思路都一致,小的就产生了一个新的疑惑——那么最终哪家能在这场AI剪辑领域的内卷中胜出呢?

  小的无法准确了解到每家公司的实际情况,但是个人觉得,能够在这场竞争中卷成功的AI剪辑工具必定满足以下条件:

  按用户类型:按用户类型可分为非企业用户(ToC)和企业用户(ToC),非企业用户会更倾向于制作内容向的视频,企业用户则会有较大一部分是制作营销向的视频。

  按视频类型:可分为内容向和营销向。内容向是指有进行非营销目的内容输出与表达的视频,比如游戏解说、电影解说、舞蹈、动漫混剪、vlog等。而营销向则是指有一定营销目的的视频,比如产品推广、品牌宣传等视频。当然,视频可以同时属于内容向和营销向两个类别。

  按视频质量:视频也是有高低质量之分的,有些视频会包含良好的创意脚本、精美的画面、优秀的分镜、动听的BGM等内容,这项视频可视为高质量的视频。但是有些视频脚本粗糙、画面低劣、分镜简陋,是低质量的视频。不过,低质量视频并不意味着这些视频没用,低视频也是有能发挥作用的地方,比如在广告投放场景上,低质量也能起到低成本获客的作用。

  比如剪映的官网标语是轻而易剪,其目的是提供简单的易用的剪辑工具,因此剪映的服务群体会相对更泛,各种用户、行业、视频类型都会涵盖。

  而即创和智能创作云是ToB的AI剪辑工具,一个是挂在广告买量平台上,一个作为SaaS工具被售卖,可见主打的就是给企业提供视频制作服务。

  不同的群体意味着有不同倾向的剪辑需求。AI剪辑工具如何把AI能力点(比如混剪、文生脚本、AI配音、视频拆条等)结合用户的需求和场景提供合适的工作流能力支持?并平衡好功能的标准化与定制化建设?这个问题是吸引用户留存的关键。

  比如面向C端用户,功能不能太复杂,最好是一键式的傻瓜操作。而面向B端用户,功能要有较好的标准化程度,才能更多地满足企业在不同场景下的需求。

  就拿各家都有的混剪成片能力来举例说明,即剪映的营销成片、即创的智能成片、智能创作云的视频混剪,这几个能力都是基于混剪这个AI能力点进行产品功能设计的。

  所谓标准化,在B端产品设计中经常用到,是指将多个类型的业务按统一的标准进行规范,使得在业务流程进行的过程中,不同类型的业务能按统一的标准进行,从而减少效率的损失。

  在研究到的示例中,智能创作云的视频混剪、即创的智能成片是标准化程度较高的,其中的混剪逻辑、视频前后贴、数字人、配音、音乐、字幕等选项都可以自定义。但这样带来一个问题——功能复杂度提高,这导致用户的学习成本变高了,实际生产中的操作成本也变高了。

  所谓定制化,是指给特定的场景进行功能定制,使得在某些特定场景上做到低配置成本的输入和输出。而剪映的营销成片能力就是相对定制化的能力,其可配置的输入项做了减法,意在让更多人上手这项功能能力。这也可能和剪映的用户群体涵盖更多的非企业用户有关系,所以他们的功能需要更简单、更容易上手,从而让更多人能用上这些能力。

  可见目前看到的各家剪辑工具,AI剪辑功能呈现上大体上都是较为符合用户群体的需求的,差距就在于后续的功能推出、产品运营、产品营销方面的手段差距了,这一块暂时未能看出任何结论。

  个人觉得,AI剪辑工具的商业模式是:AI剪辑工具通过提供视频制作流程上的使能和提效服务,用户为这项服务能力进行付费。只要AI剪辑能力能给到业务使能和提效的帮助,并且这个成本低于产出同等质量和量级内容的人力成本。

  BTW,剪映在这一块还会有点区别,因为剪映背后有抖音,其核心目的还有为抖音的短视频内容生态提供生产辅助,所以付费盈利不一定是剪映的核心商业模式。

  目前各家AI剪辑工具都是直接开启商业化,要么是按点数收费、要么是会员制,不存在亏本获客,除非后续运营手段层面搞价格战、搞买量、搞政策扶持,搞到ROI为负数、无法回本。

  值得一提的是,除开自行训练的大模型,AI剪辑中的大多数能力其实算不上壁垒。因此这些能力大多数都有开源的技术,或者说通用的底层大模型能力,其他家厂商稍微研究研究也能做到同等的程度。因此要在后续继续卷赢,必须得有自己的壁垒,这些壁垒可以是:

  自行训练的大模型:除非企业基于自有的数据进行大模型训练,且大模型有较好的效果,且其他厂商不能使用这个大模型,能够给到与其他AI编辑工具有差异化的效果。那么,该大模型能力便可以算是技术层面的壁垒。

  剪辑能力:由于AI幻觉问题的存在,AI生成的结果中往往有一定的错误比例,如果能够提供强大的编辑器作为兜底能力,便能一定程度环节壁垒的影响。比如剪映的编辑器已经发展了好几年,能够提供十分完善的剪辑能力,相比起即创的抽盲盒模式,剪映的体验会更好。

  素材库:如果AI剪辑功能能够调用庞大的素材库,并对这些素材进行准确的AI分析分类,AI剪辑工具能在用户的寻找灵感、制作草稿、收集素材环节提供高效的辅助。比如在特定场景上,提供一键成片能力,通过输入的脚本关键词,匹配准确的视频片段画面。

  这些能力依赖于企业有垂直于用户所属行业的庞大素材库,并且企业需要能够有资源进行这些素材的处理和AI模型训练。这个方向往往是需要企业能够背靠庞大的视频市场,比如背靠抖音的剪映、背靠巨量的即创。

  行业赋能能力:由于AI剪辑工具有行业之间的区别,如果能垂直赋能某一行业,给某个行业提供更高效的能力支持,同时沉淀一些该行业的能力支持、最佳实践案例(比如行业素材模板、工作流模板等等),那么企业也能在某个领域守住自己的一亩三分地。

  总的来说,AI剪辑工具目前也处于快速发展的阶段,目前还存在一些技术和应用上的局限,但其潜力和前景不容忽视。随着技术的成熟和市场的适应,我们有理由相信,AI将在视频制作领域发挥更加关键的作用。

  而其中谁能从中胜出,暂且也无从得知。但是个人认为,在其中能卷出头的AI剪辑工具,必定符合有用户、能赚钱、有壁垒这三个特点。


竞技宝官网app
电话:13973131243
邮箱:dingdangang@douyin.com
地址:竞技宝官网app
扫一扫浏览手机站