#FigGen

如果论文中的图表不用绘制,对于研究者来说是不是一种便利呢?有人在这方面进行了探索,利用文本描述生成论文图表,结果还挺有模有样的呢!

生成式 AI 已经风靡了人工智能社区,无论是个人还是企业,都开始热衷于创建相关的模态转换应用,比如文生图、文生视频、文生音乐等等。

最近呢,来自 ServiceNow Research、LIVIA 等科研机构的几位研究者尝试基于文本描述生成论文中的图表。为此,他们提出了一种 FigGen 的新方法,相关论文还被 ICLR 2023 收录为了 Tiny Paper。

论文地址:https://arxiv.org/pdf/2306.00800.pdf

也许有人会问了,生成论文中的图表有什么难的呢?这样做对于科研又有哪些帮助呢?

科研图表生成有助于以简洁易懂的方式传播研究结果,而自动生成图表可以为研究者带来很多优势,比如节省时间和精力,不用花大力气从头开始设计图表。此外设计出具有视觉吸引力且易理解的图表能使更多的人访问论文。

然而生成图表也面临一些挑战,它需要表示框、箭头、文本等离散组件之间的复杂关系。与生成自然图像不同,论文图表中的概念可能有不同的表示形式,需要细粒度的理解,例如生成一个神经网络图会涉及到高方差的不适定问题。

因此,本文研究者在一个论文图表对数据集上训练了一个生成式模型,捕获图表组件与论文中对应文本之间的关系。这就需要处理不同长度和高技术性文本描述、不同图表样式、图像长宽比以及文本渲染字体、大小和方向问题。

在具体实现过程中,研究者受到了最近文本到图像成果的启发,利用扩散模型来生成图表,提出了一种从文本描述生成科研图表的潜在扩散模型 ——FigGen。

这个扩散模型有哪些独到之处呢?我们接着往下看细节。

模型与方法

研究者从头开始训练了一个潜在扩散模型。

首先学习一个图像自动编码器,用来将图像映射为压缩的潜在表示。图像编码器使用 KL 损失和 OCR 感知损失。调节所用的文本编码器在该扩散模型的训练中端到端进行学习。下表 3 为图像自动编码器架构的详细参数。

然后,该扩散模型直接在潜在空间中进行交互,执行数据损坏的前向调度,同时学习利用时间和文本条件去噪 U-Net 来恢复该过程。

w~大模型~合集22_大模型

至于数据集,研究者使用了 Paper2Fig100k,它由论文中的图表文本对组成,包含了 81,194 个训练样本和 21,259 个验证样本。下图 1 为 Paper2Fig100k 测试集中使用文本描述生成的图表示例。 

w~大模型~合集22_大模型_02

模型细节

首先是图像编码器。第一阶段,图像自动编码器学习一个从像素空间到压缩潜在表示的映射,使扩散模型训练更快。图像编码器还需要学习将潜在图像映射回像素空间,同时不丢失图表重要细节(如文本渲染质量)。

为此,研究者定义了一个具有瓶颈的卷积编解码器,在因子 f=8 时对图像进行下采样。编码器经过训练可以最小化具有高斯分布的 KL 损失、VGG 感知损失和 OCR 感知损失。

其次是文本编码器。研究者发现通用文本编码器不太适合生成图表任务。因此他们定义了一个在扩散过程中从头开始训练的 Bert transformer,其中使用大小为 512 的嵌入通道,这也是调节 U-Net 的跨注意力层的嵌入大小。研究者还探索了不同设置下(8、32 和 128)的 transformer 层数量的变化。

最后是潜在扩散模型。下表 2 展示了 U-Net 的网络架构。研究者在感知上等效的图像潜在表示中执行扩散过程,其中该图像的输入大小被压缩到了 64x64x4,使扩散模型更快。他们定义了 1,000 个扩散步骤和线性噪声调度。

w~大模型~合集22_大模型_03

训练细节

为了训练图像自动编码器,研究者使用了一个 Adam 优化器,它的有效批大小为 4 个样本、学习率为 4.5e−6,期间使用了 4 个 12GB 的英伟达 V100 显卡。为了实现训练稳定性,他们在 50k 次迭代中 warmup 模型,而不使用判别器。

对于训练潜在扩散模型,研究者也使用 Adam 优化器,它的有效批大小为 32,学习率为 1e−4。在 Paper2Fig100k 数据集上训练该模型时,他们用到了 8 块 80GB 的英伟达 A100 显卡。

实验结果

在生成过程中,研究者采用了具有 200 步的 DDIM 采样器,并且为每个模型生成了 12,000 个样本来计算 FID, IS, KID 以及 OCR-SIM1。稳重使用无分类器指导(CFG)来测试超调节。

下表 1 展示了不同文本编码器的结果。可见,大型文本编码器产生了最好的定性结果,并且可以通过增加 CFG 的规模来改进条件生成。虽然定性样本没有足够的质量来解决问题,但 FigGen 已经掌握了文本和图像之间的关系。

w~大模型~合集22_大模型_04

下图 2 展示了调整无分类器指导(CFG)参数时生成的额外 FigGen 样本。研究者观察到增加 CFG 的规模(这在定量上也得到了体现)可以带来图像质量的改善。

w~大模型~合集22_大模型_05

下图 3 展示了 FigGen 的更多生成示例。要注意样本之间长度的变化,以及文本描述的技术水平,这会密切影响到模型正确生成可理解图像的难度。

w~大模型~合集22_大模型_06

w~大模型~合集22_大模型_07

不过研究者也承认,尽管现在这些生成的图表不能为论文作者提供实际帮助,但仍不失为一个有前景的探索方向。 







#FollowYourPose

这篇工作主要解决了生成文本可编辑且姿势可控制的角色视频的问题。为实现这一目标,作者重新设计和调整了预训练的文本到图像模型,因为它具有强大的语义编辑和组合能力。作者设计了一个新的两阶段训练方案,可以利用大规模的图像姿势对和多样化的无姿势数据集。 风暴士兵直接开始街头炫舞?两阶段训练模型生成文本可编辑且姿势可控制的角色视频

论文:https://arxiv.org/abs/2304.01186

代码:https://github.com/mayuelala/FollowYourPose

主页:https://follow-your-pose.github.io/

现如今,生成文本可编辑和姿势可控的角色视频在创建各种数字人方面具有迫切的需求。然而,由于缺乏一个全面的数据集,该数据集具有成对的视频姿势字幕和视频的生成性先验模型,因此这项任务受到了限制。在这项工作中,我们设计了一种新颖的两阶段训练方案,该方案可以利用易于获得的数据集(即图像姿势对和无姿势视频)和预训练的文本到图像(T2I)模型来获得姿势可控的角色视频。

w~大模型~合集22_大模型_08

具体来说,在第一阶段,只有姿态图像对仅用于可控的文本到图像生成。我们学习了一个零初始化的卷积编码器来对姿态信息进行编码。在第二阶段,我们通过添加可学习的时间自注意力和改革后的跨帧自注意力块,通过无姿势视频数据集对上述网络的运动进行微调。在我们的新设计的支持下,我们的方法成功地生成了连续的姿势可控的角色视频,同时保留了预训练的T2I模型的概念生成和合成能力。

w~大模型~合集22_大模型_09

我们提出了一种两阶段训练策略,以有效地从我们提出的 LAION-Pose 数据集中学习图像姿势对齐,并从没有姿势注释的自然视频中学习时间相干性。在第一阶段训练中,只有姿态编码器 E p 可以训练来学习姿态控制。

w~大模型~合集22_大模型_10

在第二阶段训练中,只有时间模块是可训练的,包括时间自注意力(SA)和跨帧自注意力。在推理过程中,通过提供描述目标角色和相应外观的文本以及表示运动的姿势序列来生成时间连贯的视频。预训练稳定扩散的大多数参数都被冻结,包括伪 3D 卷积层以及交叉注意力 (CA) 和前馈网络 (FFN) 模块。具体框架结构如下     

w~大模型~合集22_大模型_11

为了进一步保持时间一致性,我们利用帧间自注意力(SA)来进行交叉帧处理。不同的是,我们通过简单地在DDIM的上一次采样过程中重复使用每个时间步长的噪声,来生成更长的视频序列。具体而言,假设每次采样T帧,我们将最后T帧的噪声添加到下一个2个循环中,作为先验知识。需要注意的是,在整个去噪过程中,为了确保生成的长视频的时间一致性,会将每个时间步长的噪声添加到先验知识中。如图所示,所提出的方法仅调整了用于视频生成的帧间自注意力和时间自注意力。

w~大模型~合集22_大模型_12

通过以上两阶段的训练,结合为每个阶段精心设计的可调节模块,我们所提出的方法可以从轻松获得的数据集(例如人体和姿势的图像对以及随机视频)中生成连续的姿势可控视频。我们的方法也可以应用于其他相关的有条件视频生成任务,正如同时的有条件图像生成工作中所展示的。

总结一下,这篇工作主要解决了生成文本可编辑且姿势可控制的角色视频的问题。为实现这一目标,我们重新设计和调整了预训练的文本到图像模型,因为它具有强大的语义编辑和组合能力。我们设计了一个新的两阶段训练方案,可以利用大规模的图像姿势对和多样化的无姿势数据集。具体而言,在第一训练阶段,我们使用姿势编码器将姿势信息注入网络结构,并从图像-姿势对中学习,以实现姿势可控的文本到图像生成。在第二训练阶段,我们将图像模型扩展为3D网络,从无姿势视频中学习时间上的连贯性。通过我们的几项新设计,我们可以生成具有新颖创意和时间上连贯的视频,同时保留原始T2I模型的概念组合能力。








#Midjourney V6

兵贵神速,Midjourney V6昨天上午说要来,下午就真来了。神图纷纷炸出,光影效果登峰造极,主打一个「你能说我就能画」,擅长写Prompt的朋友,你们有福了!生图效果碾压DALL·E3,逼真画面光影细节登峰造极

猝不及防的,Midjourney V6昨天下午忽然发布了!和 DALL-E 3 等图像生成模型相比,谁的效果会更好呢?

虽然已经预告了是这两天,但谁也没想到Midjourney的手速居然这么快,赶在圣诞节前让大家尝尝鲜。

在/settings的下拉菜单中选择V6,或者在Prompt后输入 --v 6,就可以用上V6 Beta版模型了!

激动的网友们蜂拥而入,出炉了一大波测评。比起V5,V6真的是疯狂加细节,画面质量史诗级增强。

根据MJ官方介绍,V6的主要变化,就是图像质量更好、语义理解更强、能嵌入英文单词、更容纳更多token了。

举个例子,下面这两张超人和蝙蝠侠的「剧照」,要不是背景里的「V6 is here」的提示,几乎已经分辨不出来到底是实拍还是出自AI。

w~大模型~合集22_大模型_13

以前被诟病最多的「一眼AI」,也在V6上达到了几乎「以AI乱真」的地步。

有网友表示:Midjourney V5到V6的升级,堪称是一次里程碑,意义堪比Stable Diffusion出现高清重绘。

除了图像模型的大提升之外,V6最大的变化,就在于提示词系统几乎重做了。

用户很可能需要重新学习怎么写提示词,需要尽量避免之前「语焉不详的描述」,例如「award winning」这类形容词。

之所以会这样,是因为在以前,模型没办法完全反映提示词的要求,写太详细也没用。但是升级之后,图片会尽可能地遵循提示词中每一个词,所以用户也要珍惜提示词的空间,尽可能地详细描述自己想要的内容。

总之一句话就是,「只要你能说得清楚,V6就能给你画明白。」

网友用Midjourney V6来想象「如果史蒂夫·乔布斯今天还活着,他会是什么样子」,结果令人震惊

这位网友表示:如果说这是生成式AI创造的图像,没人会相信我。

它已经达到了电影级别的质量。这一领域的创意,比如电影、照片、海报和杂志,从此很可能由AI主导。

另一位网友表示,MJ V6太逼真了,你可以直接用它想象你最爱的演员在电影中的样子,比如Jared Leto在Netflix《最后的沙皇》中的扮相。

w~大模型~合集22_大模型_14

神图纷纷出现,图像质量史诗级提升

里程碑级的升级,究竟体现在了哪些地方?

一位网友用同样的Prompt来测试了V6和V5.2,可以看出,V6的提升体现在多处细节上。(上V6,下V5.2)

雨坑中日落的倒影,V6的光影效果明显比V5.2更自然,V5.2的加工痕迹要更明显。

w~大模型~合集22_大模型_15

reflection of a sunset in a rain puddle

仔细观看可以发现,同样的女性面部主体,V6在皮肤细节、毛发细节、光影效果上,都远优于V5.2的效果。

w~大模型~合集22_大模型_16

w~大模型~合集22_大模型_17

1940年代复古科幻电影中身穿高领银色操作衣的女操作员,V6生图明显要比V5.2更加真实。

V5.2的图片主体人物显得过于呆板,不像真人。

w~大模型~合集22_大模型_18

1940s retro sci-fi film, medium side-angle shot of a young female control panel operator wearing a form-fitting silver jumpsuit with a high collar. She is surrounded by 3 art deco robots. warm glowing buttons and switches, soft illumination

下面这两幅食物的图片都很诱人,但是V6的色彩和光影还是要更胜一筹。

w~大模型~合集22_大模型_19

w~大模型~合集22_大模型_20

a pot of stew with a wooden spoon, top-down perspective

在生成「二次元」风格的口袋妖怪时,V6生成的效果神似动漫,而V5.2会画得更像个摆拍的手办。

w~大模型~合集22_大模型_21

w~大模型~合集22_大模型_22

frozen squirtle on the top of a snowy mountain 35mm film still of a detective

超强语义理解,Prompt说啥就画啥

如果说在以前,视觉效果和美学表现都足够震撼的Midjourney,为何风头时常不及DALL-E 3和Adobe Firefly,那自然是因为对于Prompt的高要求,吓退了众多「语死早」的用户。

并且,V5.2糟糕的语义理解,也经常让生图结果是「虽然美丽但不实用」。

而如今的V6,让Midjourney对于语气增强的理解,终于追上了竞家的脚步。比起V5.2,V6大大增强了语义理解的能力,对于Prompt的把握也更加精准。

写着「open late」霓虹灯标志的酒吧,V6就原样生出来了,V5.2的字样根本就不对。

而且从光影效果来看,V6也要更丰富更真实,就像给图片开了光追一样。

a corner bar with a neon sign that says "open late"

这张1960年代的街头风格照片,需要画出一位年轻女子穿着绿色丝绸连衣裙、戴着珍珠项链坐在帆船上。

显然,V6对于「珍珠项链」的理解要比V5.2好很多,而且除了人物主体之外,V6的周边细节也更合理精细。

w~大模型~合集22_大模型_23

1960s street style photo of a young woman sitting on a sailboat wearing a green silk dress and a pearl necklace. The sun is setting over the ocean, shot on Agfa Vista 200

「1980年代的悬疑电影,仰拍,身穿黑西装的法国管家在维多利亚式豪宅的走廊中手握蜡烛。」

从光影和构图来看,V6更符合要求,主体人物很好地融合进了背景里。而V5.2基本都没有做到。

w~大模型~合集22_大模型_24

1980s mystery film, low-angle shot of an evil-eyed French Butler sporting a black suit and grasping a candle in the hallway of a creepy Victorian mansion with musty decor. The warm candle glow evokes a spooky sense of mystery

下面这幅要求画出抽象、超现实的景观,有融化的时钟、扭曲的形状和浮岛,空中有一只眼镜形状的巨大月亮。

其中,V6在空中画出了「A large, eye-shaped moon dominates the sky」,而V5.2就没有把这部分体现出来。

w~大模型~合集22_大模型_25

An abstract, surreal landscape with melting clocks, distorted shapes, and floating islands. The color palette is vibrant with a mix of blues, reds, and greens. A large, eye-shaped moon dominates the sky

这张1970年代的柯达Ektachrome电影剧照,需要画出身穿深V绿色丝绸连体裤的25岁红发女子。但V5.2并没有把我们要求的深V领口画出来。

w~大模型~合集22_大模型_26

1970s medium-closeup Ektachrome film still of a 25-year-old woman with curly red hair and freckles standing in front of vintage car in downtown Los Angeles. She's wearing a green silk jumpsuit with a plunging neckline. Golden hour

「五颜六色的珊瑚礁,各种各样的海洋生物,包括各种鱼、海龟和顽皮的海豚」。

这次,V5.2直接把海豚无视掉了,并自作主张地画了一个潜水员……

A colorful coral reef teeming with marine life. There are various species of fish, a sea turtle, and a playful dolphin. Sunlight filters through the water, creating a dappled effect on the sea floor.

「1980年代的间谍电影,年轻的黑发女人站在埃及装饰风格的豪宅中,有着黑色大理石柱子。」

显然,V6对于黑色大理石柱等背景的还原,要比V5.2准确得多。

1980s spy movie, Medium closeup shot from low-angle, 35mm film still of a young brunette Egyptian woman standing in an Egyptian Art Deco Mansion with large columns made of black marble, wearing a black sequin dress, inside, daytime, natural lighting

「电影剧照,一名侦探在犯罪现场采访一名女性证人,侦探在做笔录,目击者焦急地看着,指着一条线索。」

可以看到,V6的人物动作更加符合常理,而V5.2的图片中人物动作像是在发呆,没有按照提示词的描述进行做笔录的行为。

w~大模型~合集22_大模型_27

interviewing a female witness at a crime scene. The detective is taking notes, while the witness looks on anxiously, pointing towards a clue

就如同开头所说,「只要你能说得清楚,V6就能给你画明白。」

如果你是个想象力大师,可以用逻辑结构清晰、充满细节的语言描绘出心中所想,V6定不会让你失望——语言可以控制光影、控制材质、控制色彩、控制构图。

一句话,语言的魔力已经被放至最大:能写出神级Prompt的人,必得神图。

而相比之下,有ChatGPT加持的DALL-E 3,就不这么苛求用户的语言表达能力,而是可以自行想象。

难怪大家都说,Midjourney的上限足够高,DALL-E 3的下限足够低。

文字生成,直追SOTA

在文字生成上,V6较前代也有了巨大的提升。

EMPTY、TOMORROW、Coca Cola,这些字在图像中想加就加。

虽然在准确度上略逊于DALL·E 3,但视觉美感方面的表现,Midjourney依旧是遥遥领先。

不过需要注意的是,下面这些图像,每一张都进行了3-10次的尝试,才得了到比较理想的结果。

A man standing alone in a dark empty area, staring at a neon sign that says "EMPTY"

A realistic standup pouch product photo mockup decorated with bananas, raisins and apples with the words "ORGANIC SNACKS" featured prominently

w~大模型~合集22_大模型_28

An anime style movie poster with the stylized words "TOMORROW", with a girl looking upwards at the night sky, and cherry blossoms floating in the wind. --s 200

A Coca Cola ad, featuring a beverage can design with traditional Hawaiian patterns

A clean, minimalistic logo featuring an ice cream cone, with palm trees as the backdrop and the words "ICE CREAM OASIS" --style raw

A clean and minimalistic professionally designed vector of a biker speeding on a highway, with the words "FREEDOM ON WHEELS" --s 250

A minimalistic product shot of a bottle of perfume on a clean backdrop with the words "Floral Symphony", surrounded by fragrant white flowers

A modern cinematic movie poster with the words "FALLEN" showing a fallen angel in a dark forest --style raw --s 200

A modern burger advertisement, with the words "THE BIG ONE", featuring a delicious huge beef burger, with tomatoes and lettuce in the background

A pixar style illustration of a happy hedgehog, standing beside a wooden signboard saying "SUNFLOWERS", in a meadow surrounded by blooming sunflowers

这里,我们汇总了一些可以提高生成准确率的实用技巧:

1. 将单词大写并放在引号中,如「LIKE THIS」,可以提高生成的准确度

2. 使用--style raw参数,可以得到更准确的结果

3. 明确提出是电影海报(movie poster)和广告(advertisement),效果更好

4. 高stylize值可以创造出更有趣的文字效果

三大AI生图巨头pk,谁能胜出?

所以,现在AI生图工具的三大巨头,无疑就是Midjourney V6、DALL·E 3和Adobe Firefly了。

网友们当然迫不及待地让三巨头展开了一场大pk,对同一主题生图,一目了然地拼个高下。

Midjourney因为有着非常丰富的光影效果,有极强的真实感,几乎没有了原先那种「一眼AI」的感觉。

同样画一个年轻女人,MJ打在脸上的光影效果让人震撼,人物的眼神在传达着某种情绪,整个画面都充满了电影感和故事感。

相比之下,另外两个女人美则美矣,眼神却略显空洞。

金发粉色衣服的美女,MJ画的美女骨相耐看,衣服很仙。

果然,Midjourney画的美女,永远是最好看的。

蓝莓蛋糕,MJ也是赢得很彻底。相比之下,DALL·E 3的AI感还是太重了,一眼假。

w~大模型~合集22_大模型_29

 「一对白发苍苍的老人」这道题,MJ的作品太动人了,一张照片仿佛包含了一生的故事。

机甲战士三家都画得不多,MJ的背景虚化显然是做得最好的。

雪中樱花的背景,MJ又一次完胜。

同样是金发美女,三张图构图不同,侧重点也不同。要论故事感,还是MJ完胜。

拿着相机的美女,后面是起火的建筑。MJ的人物情绪是对的,Adobe Firefly画的美女笑得就太没心没肺了,DALL·E 3的人物和背景太剥离,光线太假。

总之,虽然大家对于AI生图的评价标准各有不同的,但可以笃定地说,在艺术性和创意的触感上,Midjourney V6这一轮是妥妥地赢了。

做对比图的博主说,Midjourney现在是,并且可能永远是自己的最爱。就是因为它,自己才进入了这个AI艺术社区。

这位网友表示,在审美上,MJ把两位对手远远甩在了后面。

这位网友指出,Adobe Firefly的优点就是,让图像看起来如此逼真,以至于你可以直接上传社交媒体。

相比之下,MJ的对比度更高,更倾向于添加光影。

很多人都被 Midjourney V6 的生成效果震撼到了。

新版本允许输入更长的提示,生成更丰富的细节,甚至可以向照片添加文本。与先前版本一样,新版可通过 Discord 获得。用户需要在 Midjourney Discord 服务器或 Midjourney bot 中键入「/settings」,然后使用顶部的下拉菜单选择 V6。用户也可以使用传统的方法,在提示之后手动输入「-v 6」。

「这个模型可以生成比我们之前发布的任何模型都更加真实的图像,」Midjourney 创始人 David Holz 在 Midjourney Discord 服务器上发布的一条消息中写道,该服务器拥有超过 1700 万会员。Holz 表示,V6 实际上是「在我们的人工智能超级集群上从头开始训练的第三个模型」,花了九个月的时间开发。

设计师 Tatiana Tsiguleva 表示,Midjourney v6 对提示的理解将更加精准,这也意味着不再需要那些奇怪的短语或单词。比如,你想要生成的结果更加真实,你可以以「—style raw」结束提示,而不是输入一些描述性的单词。

不过,目前 V6 缺少 V5.2 上的一些功能,包括左右平移和缩小,但 Holz 表示这些功能将在 V6 的后续更新中提供。

参考资料:

https://twitter.com/Mr_AllenT/status/1737829217973243990

https://twitter.com/chaseleantj/status/1737816505507795060

https://venturebeat.com/ai/midjourney-v6-is-here-with-in-image-text-and-completely-overhauled-prompting/