AI画像ジェネレーター「DALL・E 2」は独自の「秘密言語」を持っているか?
自然言語処理と画像生成を組み合わせたAI画像ジェネレーター「DALL・E 2」で、人間からすると意味のない文字列を入力したときに似たような画像が生成されることがあるため「秘密の言語がある」と研究者が指摘しました。
ただし、この指摘については別の研究者から「単なる偶然に過ぎない」との反論が行われています。
Discovering the Hidden Vocabulary of DALLE-2
(PDFファイル)https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf
DALL・E 2に秘密の言語があることを指摘したのは、テキサス大学オースティン校のGiannis Daras氏とAlexandros G. Dimakis氏。たとえば、「Apoploe vesrreaitais」が鳥を、「Contarra ccetnxniams luryca tanniounons」が虫かペットを意味するとのこと。このため、「Apoploe vesrreaitaisがContarra ccetnxniams luryca tanniounonsを食べる」のように文章を入力すると、鳥が虫を食べる画像が表示されます。
DALLE-2 has a secret language.
— Giannis Daras (@giannis_daras) May 31, 2022
"Apoploe vesrreaitais" means birds.
"Contarra ccetnxniams luryca tanniounons" means bugs or pests.
The prompt: "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons" gives images of birds eating bugs.
A thread (1/n)???? pic.twitter.com/VzWfsCFnZo
DALL・E 2はもともとテキストを扱うのが上手ではないとのことで、「2人の農家が野菜について話している、字幕付きで」と入力すると、2人の農家が意味不明な言葉を話している画像が表示されます。Daras氏によれば、背景に出てくるテキストはランダムに出ているわけではないらしく……
A known limitation of DALLE-2 is that it struggles with text. For example, the prompt: "Two farmers talking about vegetables, with subtitles" gives an image that appears to have gibberish text on it.
— Giannis Daras (@giannis_daras) May 31, 2022
However, the text is not as random as it initially appears... (2/n) pic.twitter.com/B3e5qVsTKu
先ほどの画像の背景に登場した「Vicootes」という単語で画像生成を行うと、野菜の画像が得られたとのこと。同様に、画像内に登場した「Apoploe vesrreaitais」という単語で画像生成すると、鳥の画像が得られたとのこと。つまり、先ほど意味不明に見えた会話は、DALL・E 2としては「農家が野菜を食べる鳥について話しているところ」として生成したものだと考えられるというわけです。
We feed the text "Vicootes" from the previous image to DALLE-2. Surprisingly, we get (dishes with) vegetables! We then feed the words: "Apoploe vesrreaitars" and we get birds. It seems that the farmers are talking about birds, messing with their vegetables! (3/n) pic.twitter.com/OiU7NPTbor
— Giannis Daras (@giannis_daras) May 31, 2022
「2頭のクジラが食べ物について話している、字幕付き」という文章を入力すると、クジラが「Wa ch zod rea」と話している画像が生成されます。「Wa ch zod rea」で画像生成した結果が実際に食べ物の画像だったことから、Daras氏は、「クジラが(DALL・E 2の言語で)食べ物について話をしている画像が作られた」と解釈しています。
Another example: "Two whales talking about food, with subtitles". We get an image with the text "Wa ch zod rea" written on it. Apparently, the whales are actually talking about their food in the DALLE-2 language. (4/n) pic.twitter.com/cqlUYXlLvf
— Giannis Daras (@giannis_daras) May 31, 2022
Daras氏によると、DALL・E 2の言語には不条理な文章を生み出す単語もあるとのこと。たとえば「Apoploe vesrreaitaisの絵」という入力だと鳥の絵が得られるのですが、モデルによって「Apoploe vesrreaitais」は「空を飛ぶもの」ぐらいの意味になるようです。
Some words from the DALLE-2 language can be learned and used to create absurd prompts. For example, "painting of Apoploe vesrreaitais" gives a painting of a bird. "Apoploe vesrreaitais" means to the model "something that flies" and can be used across diverse styles. (5/n) pic.twitter.com/w73iKN4kM1
— Giannis Daras (@giannis_daras) May 31, 2022
このDALL・E 2言語の発見により、セキュリティや解釈可能性に関して多くの興味深い課題が生まれたとDaras氏は述べています。
The discovery of the DALLE-2 language creates many interesting security and interpretability challenges.
— Giannis Daras (@giannis_daras) May 31, 2022
Currently, NLP systems filter text prompts that violate the policy rules. Gibberish prompts may be used to bypass these filters. (6/n)
一方で、リサーチ研究者のベンジャミン・ヒルトン氏は「DALL・Eに秘密の言語はないか、少なくともまだ我々は発見できていない」という立場を示しました。
No, DALL-E doesn’t have a secret language.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
(or at least, we haven't found one yet)
This viral DALL-E thread has some pretty astounding claims. But maybe the reason they’re so astounding is that, for the most part, they're not true.
Thread ???????? (1/15)https://t.co/8F2WDp7lTK
Daras氏の論文では「Contarra ccetnxniams luryca tanniounons」が虫や害虫の意味となっていますが、ヒルトン氏の調べでは、動物の画像もたくさん出てくるとのこと。
Let’s start with some of the basic claims.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
1) @giannis_daras says "Contarra ccetnxniams luryca tanniounons" means bugs or pests.
This just seems wrong.
Here's what I get if I put "Contarra ccetnxniams luryca tanniounons" into DALL-E - lots of different animals.
(2/15) pic.twitter.com/RGHeRw1pmb
もしDALL・Eに秘密の言語があるのであれば、DALL・Eで変換すればすべて同様の法則に基づいた形で変換されるはずですが、ヒルトン氏が「Contarra ccetnxniams luryca tanniounons」に「3Dレンダリング」という条件を追加すると、虫ではなく海の生き物の画像ばかり生成されるようになったとのこと。
The key to claims of a DALL-E "secret language" is that these terms apply across DALL-E prompts - including when used in more complex prompts, like asking DALL-E to output in other styles.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
But if I add “, 3d render” to the prompt I get sea-related things, not bugs.
(3/15) pic.twitter.com/YUspbCyqgS
同様に、「カートゥーン」や「絵」という条件を加えると、おばあちゃん画像ばかりに。
The prompts "Contarra ccetnxniams luryca tanniounons, cartoon" and ""Contarra ccetnxniams luryca tanniounons, painting" give me... grandmas?!
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
(4/15) pic.twitter.com/eBQY4bWSzL
次にヒルトン氏が確かめたのは、Daras氏が「鳥を意味する」と主張する「Apoploe vesrreaitais」。
2) How about the claim that “Apoploe vesrreaitais” means “birds” or “things that fly”?
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
This does better. For the prompt “Apoploe vesrreaitais”, DALL-E does generate birds.
(5/15) pic.twitter.com/4LHUYGqWyZ
これも同様に「カートゥーン」や「絵」の条件を加えると、虫が多く表示され、鳥はまったく出てこなかったとのこと。このことから、ヒルトン氏は「結果はあくまで偶然の産物」か、あるいは言葉に2つの意味があるかだと推測しました。
If I try a cartoon, or a 3D render, DALL-E generates lots of bugs (some of which can fly) and no birds.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
My best guess? It’s random chance. Or just maybe (if you really press me) “Apoploe vesrreaitais” looks like a binomial name for some birds or bugs.
(6/15) pic.twitter.com/hC3g2B9HRS
その上で、「Apoploe vesrreaitaisがContarra ccetnxniams luryca tanniounonsを食べる」という組み合わせを調べると、鳥は出てきたものの、虫は出てきませんでした。
3) Combining claims 1 and 2: does "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons" give images of birds eating bugs?
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
As you might expect from our previous results, this prompt definitely generates some birds, but I’m not sure there are any bugs.
(7/15) pic.twitter.com/lym1KZVLKe
続いてヒルトン氏が検証したのは、「野菜」を意味するとの主張があった「Vicootes」。しかしこれも条件を加えると、それぞれの条件ごとにバラバラの結果となりました。
4) @giannis_daras says "Vicootes" means “vegetables”.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
Again, yes, "Vicootes" does give us some vegetable dishes. But:
- “vicootes, cartoon” gives some weird characters
- “vicootes, 3d render” gives objects
- “vicootes, painting” gives flowers and landscapes
(8/15) pic.twitter.com/oq0KBI4zjh
これらの結果を受けて、ヒルトン氏は「秘密のDALL・E言語があるというより、確率的でランダムなノイズのように思える」とコメント。
To me this is all starting to look a lot more like stochastic, random noise, than a secret DALL-E language.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
(9/15)
さらにヒルトン氏は、DALL・Eが生成する画像に書かれる文字列についても調査を実施。
Ok, let's dig a bit deeper.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
5) Does the text in DALL-E images mean something?@giannis_daras uses the example of “Two whales talking about food, with subtitles"
He then claims that using text from one of these pictures as a prompt will generate images of food.
(10/15) pic.twitter.com/5aCP2eqvRp
「2頭のクジラが食べ物について話している」という、Daras氏が用いた入力内容を利用して、なんとか書き写せるような文字列が生成された最初の画像がコレ。「Evve waeles」と読める文字列が出力されています。
None of these pictures really have transcribable text, so I asked DALL-E to generate more whales until there was an image with text to copy. This is the first one DALL-E gave me.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
(11/15) pic.twitter.com/6o5tb91JPx
この「Evve waeles」をDALL・E 2に入力するとデザートや動物、スポーツなどの画像が得られました。
And look, prompting DALL-E with "Evve waeles" gave me a picture of a delicious dessert!
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
But also - some footballers, some animals and a kettle?
(12/15) pic.twitter.com/jncHq0W13Q
「Evve waeles」は特に意味がないか、「whales(クジラ)」が転訛したものと考えられます。このことから、「Daras氏は幸運なことに、クジラが『Wa ch zod rea』と発言し、実際にその言葉で食べ物の画像が得られたのです」とヒルトン氏は述べています。
What do I think? "Evve waeles" is either nonsense, or a corruption of the word "whales". Giannis got lucky when his whales said "Wa ch zod rea" and that happened to generate pictures of food.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
(13/15)
以上のことから、ヒルトン氏はフェアに考えて、Daras氏が「Apoploe vesrreaitais」を入力すると常に鳥の写真が生成されるのであれば、やはり何かはあるのだろうとコメント。
CONCLUSION:
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
To be fair to @giannis_daras, it's definitely weird that “Apoploe vesrreaitais” gives you birds, every time, despite seeming nonsense.
So there's for sure something to this.
(14/15)
ただし、だからといって「DALL・Eに秘密の言語がある」や「DALL・Eが出力した文字列が何かを意味する」ことの証拠にはならず、もし違うのであれば証明されるのを楽しみにしてる、と締めくくりました。
But I don't think there's evidence there's a secret language across prompts - or that the text in DALL-E images means anything.
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
And if there is evidence, I'm looking forward to being proven wrong! @giannis_daras - next round's on you :)
(15/15)
・関連記事
「バイクに乗るピカチュウ」「アボカドの椅子」など言葉から自動でイラストや写真を生成するAI「DALL・E」 - GIGAZINE
AIは人間と同じように言葉の意味を「理解」しているのか? - GIGAZINE
Google翻訳のAIは独自の「中間言語」を習得して「学習してない言語間の翻訳」すら可能な段階に突入 - GIGAZINE
OpenAIが入力した自然言語から自動でコードを出力するAIシステム「Codex」をリリース - GIGAZINE
・関連コンテンツ