AI画像ジェネレーター「DALL・E 2」は独自の「秘密言語」を持っているか?
自然言語処理と画像生成を組み合わせたAI画像ジェネレーター「DALL・E 2」で、人間からすると意味のない文字列を入力したときに似たような画像が生成されることがあるため「秘密の言語がある」と研究者が指摘しました。
Discovering the Hidden Vocabulary of DALLE-2
DALL・E 2に秘密の言語があることを指摘したのは、テキサス大学オースティン校のGiannis Daras氏とAlexandros G. Dimakis氏。たとえば、「Apoploe vesrreaitais」が鳥を、「Contarra ccetnxniams luryca tanniounons」が虫かペットを意味するとのこと。このため、「Apoploe vesrreaitaisがContarra ccetnxniams luryca tanniounonsを食べる」のように文章を入力すると、鳥が虫を食べる画像が表示されます。
DALLE-2 has a secret language.
— Giannis Daras (@giannis_daras) May 31, 2022
"Apoploe vesrreaitais" means birds.
"Contarra ccetnxniams luryca tanniounons" means bugs or pests.
The prompt: "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons" gives images of birds eating bugs.
A thread (1/n)????
DALL・E 2はもともとテキストを扱うのが上手ではないとのことで、「2人の農家が野菜について話している、字幕付きで」と入力すると、2人の農家が意味不明な言葉を話している画像が表示されます。Daras氏によれば、背景に出てくるテキストはランダムに出ているわけではないらしく……
A known limitation of DALLE-2 is that it struggles with text. For example, the prompt: "Two farmers talking about vegetables, with subtitles" gives an image that appears to have gibberish text on it.
— Giannis Daras (@giannis_daras) May 31, 2022
However, the text is not as random as it initially appears... (2/n)
先ほどの画像の背景に登場した「Vicootes」という単語で画像生成を行うと、野菜の画像が得られたとのこと。同様に、画像内に登場した「Apoploe vesrreaitais」という単語で画像生成すると、鳥の画像が得られたとのこと。つまり、先ほど意味不明に見えた会話は、DALL・E 2としては「農家が野菜を食べる鳥について話しているところ」として生成したものだと考えられるというわけです。
We feed the text "Vicootes" from the previous image to DALLE-2. Surprisingly, we get (dishes with) vegetables! We then feed the words: "Apoploe vesrreaitars" and we get birds. It seems that the farmers are talking about birds, messing with their vegetables! (3/n)
— Giannis Daras (@giannis_daras) May 31, 2022
「2頭のクジラが食べ物について話している、字幕付き」という文章を入力すると、クジラが「Wa ch zod rea」と話している画像が生成されます。「Wa ch zod rea」で画像生成した結果が実際に食べ物の画像だったことから、Daras氏は、「クジラが(DALL・E 2の言語で)食べ物について話をしている画像が作られた」と解釈しています。
Another example: "Two whales talking about food, with subtitles". We get an image with the text "Wa ch zod rea" written on it. Apparently, the whales are actually talking about their food in the DALLE-2 language. (4/n)
— Giannis Daras (@giannis_daras) May 31, 2022
Daras氏によると、DALL・E 2の言語には不条理な文章を生み出す単語もあるとのこと。たとえば「Apoploe vesrreaitaisの絵」という入力だと鳥の絵が得られるのですが、モデルによって「Apoploe vesrreaitais」は「空を飛ぶもの」ぐらいの意味になるようです。
Some words from the DALLE-2 language can be learned and used to create absurd prompts. For example, "painting of Apoploe vesrreaitais" gives a painting of a bird. "Apoploe vesrreaitais" means to the model "something that flies" and can be used across diverse styles. (5/n)
— Giannis Daras (@giannis_daras) May 31, 2022
このDALL・E 2言語の発見により、セキュリティや解釈可能性に関して多くの興味深い課題が生まれたとDaras氏は述べています。
The discovery of the DALLE-2 language creates many interesting security and interpretability challenges.
— Giannis Daras (@giannis_daras) May 31, 2022
Currently, NLP systems filter text prompts that violate the policy rules. Gibberish prompts may be used to bypass these filters. (6/n)
No, DALL-E doesn’t have a secret language.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
(or at least, we haven't found one yet)
This viral DALL-E thread has some pretty astounding claims. But maybe the reason they’re so astounding is that, for the most part, they're not true.
Thread ???????? (1/15)
Daras氏の論文では「Contarra ccetnxniams luryca tanniounons」が虫や害虫の意味となっていますが、ヒルトン氏の調べでは、動物の画像もたくさん出てくるとのこと。
Let’s start with some of the basic claims.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
1) @giannis_daras says "Contarra ccetnxniams luryca tanniounons" means bugs or pests.
This just seems wrong.
Here's what I get if I put "Contarra ccetnxniams luryca tanniounons" into DALL-E - lots of different animals.
もしDALL・Eに秘密の言語があるのであれば、DALL・Eで変換すればすべて同様の法則に基づいた形で変換されるはずですが、ヒルトン氏が「Contarra ccetnxniams luryca tanniounons」に「3Dレンダリング」という条件を追加すると、虫ではなく海の生き物の画像ばかり生成されるようになったとのこと。
The key to claims of a DALL-E "secret language" is that these terms apply across DALL-E prompts - including when used in more complex prompts, like asking DALL-E to output in other styles.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
But if I add “, 3d render” to the prompt I get sea-related things, not bugs.
The prompts "Contarra ccetnxniams luryca tanniounons, cartoon" and ""Contarra ccetnxniams luryca tanniounons, painting" give me... grandmas?!
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
次にヒルトン氏が確かめたのは、Daras氏が「鳥を意味する」と主張する「Apoploe vesrreaitais」。
2) How about the claim that “Apoploe vesrreaitais” means “birds” or “things that fly”?
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
This does better. For the prompt “Apoploe vesrreaitais”, DALL-E does generate birds.
If I try a cartoon, or a 3D render, DALL-E generates lots of bugs (some of which can fly) and no birds.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
My best guess? It’s random chance. Or just maybe (if you really press me) “Apoploe vesrreaitais” looks like a binomial name for some birds or bugs.
その上で、「Apoploe vesrreaitaisがContarra ccetnxniams luryca tanniounonsを食べる」という組み合わせを調べると、鳥は出てきたものの、虫は出てきませんでした。
3) Combining claims 1 and 2: does "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons" give images of birds eating bugs?
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
As you might expect from our previous results, this prompt definitely generates some birds, but I’m not sure there are any bugs.
4) @giannis_daras says "Vicootes" means “vegetables”.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
Again, yes, "Vicootes" does give us some vegetable dishes. But:
- “vicootes, cartoon” gives some weird characters
- “vicootes, 3d render” gives objects
- “vicootes, painting” gives flowers and landscapes
To me this is all starting to look a lot more like stochastic, random noise, than a secret DALL-E language.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
Ok, let's dig a bit deeper.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
5) Does the text in DALL-E images mean something?@giannis_daras uses the example of “Two whales talking about food, with subtitles"
He then claims that using text from one of these pictures as a prompt will generate images of food.
「2頭のクジラが食べ物について話している」という、Daras氏が用いた入力内容を利用して、なんとか書き写せるような文字列が生成された最初の画像がコレ。「Evve waeles」と読める文字列が出力されています。
None of these pictures really have transcribable text, so I asked DALL-E to generate more whales until there was an image with text to copy. This is the first one DALL-E gave me.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
この「Evve waeles」をDALL・E 2に入力するとデザートや動物、スポーツなどの画像が得られました。
And look, prompting DALL-E with "Evve waeles" gave me a picture of a delicious dessert!
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
But also - some footballers, some animals and a kettle?
「Evve waeles」は特に意味がないか、「whales(クジラ)」が転訛したものと考えられます。このことから、「Daras氏は幸運なことに、クジラが『Wa ch zod rea』と発言し、実際にその言葉で食べ物の画像が得られたのです」とヒルトン氏は述べています。
What do I think? "Evve waeles" is either nonsense, or a corruption of the word "whales". Giannis got lucky when his whales said "Wa ch zod rea" and that happened to generate pictures of food.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
以上のことから、ヒルトン氏はフェアに考えて、Daras氏が「Apoploe vesrreaitais」を入力すると常に鳥の写真が生成されるのであれば、やはり何かはあるのだろうとコメント。
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
To be fair to @giannis_daras, it's definitely weird that “Apoploe vesrreaitais” gives you birds, every time, despite seeming nonsense.
So there's for sure something to this.
But I don't think there's evidence there's a secret language across prompts - or that the text in DALL-E images means anything.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
And if there is evidence, I'm looking forward to being proven wrong! @giannis_daras - next round's on you :)
