再谈大模型工作流技术之——ComfyUI框架 原创
在之前的文章中写了一篇关于ComfyUI工作流的文章,大模型之视频图像生成之工作流——ComfyUI和AI炼丹师,不过在此之前对工作流并不熟悉;本着先记下来再说的理念就有了之前的这篇文章。
而最近在做一款AIGC产品的过程中,主要负责的就是Comfyui工作流这块;本着要知其然,也要知其所以然的心态,因此向公司的炼丹师请教了一下ComfyUI工作流的工作原理以及工作流程。
ComfyUI的工作原理以及流程
首先要声明一个误区,ComfyUI是一款针对于视频生成Stable Diffusion开发的一个UI工具,但这并不代表着ComfyUI就是Stable Diffusion公司开发的, 它是一个开源项目,github地址如下。
ComfyUI项目github项目地址
可能很多人都听说过ComfyUI,但很少有人深入了解过ComfyUI框架,那么到底什么是ComfyUI?
其实简单来说,ComfyUI就是一款用来配置工作流的可视化工具,展示形式是web页面,用户可以通过这个工具配置工作流,以此达到特定的目的;比如生成一个特定风格的图片或视频等。
所以一句话概括,ComfyUI就是一个工作流配置工具。
如果不知道什么是工作流的读者,可以自行度娘一下。
工作流(Workflow),就是“业务过程的部分或整体在计算机应用环境下的自动化”
既然明白了ComfyUI是一个工作流配置工具,那它的工作原理是什么呢?
事实上,ComfyUI是通过一个叫做节点的东西来配置工作流的,通过对不同的节点进行配置,使得业务可以按照工作流配置的流程去执行。
而ComyUI因为是真的大模型技术而开发的,因此它支持在节点中配置不同的大模型来实现不同的目的和效果。
比如,在传统的AIGC实现过程中,要想实现一个视频生成的功能,那么就需要找到一个视频生成大模型,比如openAI提供的Sora。
而对大模型技术有过了解的人应该都知道,不论什么大模型都会有其擅长和不擅长的一面,毕竟通用大模型还没实现。因此,如果你想使用一个视频生成模型来生成多种不同风格的视频,那么其效果可能就大打折扣了。
比如,你要想让一个视频生成模型即可以生成古风视频,又可以生成现代视频,又可以生成未来的视频,同时又要求高质量生成,这样的模型可能并不存在。
那么,一般的解决办法是什么?
通过重新训练或微调的方式,来让大模型生成不同风格的视频,为不同的风格微调不同的大模型。
但我们知道,由于大模型训练和微调巨大的成本压力,这种方式显然是不现实的。那么应该怎么解决呢?
这时就可以换一种方式,那就是为每种风格的视频,都找到一个开源的模型,这个问题自然就解决了。
但虽然不同风格的视频生成解决了,但面对如此多的视频风格,个人或企业要怎么维护?如果如果需要多个模型进行配合该怎么办?而且有新人进来,难道要一个一个地教他们怎么使用不同风格的模型。
因此,这时ComfyUI的作用就体现出来了,首先ComfyUI可以通过配置的方式,配置一个固定的工作流,其中调用在需要的节点调用合适的大模型。这样,以后再想生成同样风格的视频,就可以直接使用这个工作流即可。
其次,ComfyUI通过在不同的节点配置不同的大模型,就可以达到让多个大模型协作的效果。这样只需要一个强大的视频生成模型,配合不同的风格的小模型就可以达到生成多种风格视频的目的。
那么,ComfyUI是怎么工作的呢?
首先,ComfyUI是一个B/S结构的工作流框架,B/S结构是基于浏览器和服务器的模式;用户可以通过在本地或远程服务器上安装ComfyUI框架,那么用户就可以直接通过浏览器方式ComfyUI服务端。
其次,炼丹师根据具体的业务要求,通过节点配置ComfyUI工作流;最终,此工作流会被保存为一个JSON文件,这样开发人员就可以通过这个JSON文件,通过修改其参数的形式,来调用ComfyUI接口来生成不同风格的内容。
本文转载自公众号AI探索时代 作者:DFires