AI画像ジェネレーター「DALL・E 2」は独自の「秘密言語」を持っているか? - GIGAZINE
サイエンス

AI画像ジェネレーター「DALL・E 2」は独自の「秘密言語」を持っているか?


自然言語処理と画像生成を組み合わせたAI画像ジェネレーター「DALL・E 2」で、人間からすると意味のない文字列を入力したときに似たような画像が生成されることがあるため「秘密の言語がある」と研究者が指摘しました。

ただし、この指摘については別の研究者から「単なる偶然に過ぎない」との反論が行われています。

Discovering the Hidden Vocabulary of DALLE-2
(PDFファイル)https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf


DALL・E 2に秘密の言語があることを指摘したのは、テキサス大学オースティン校のGiannis Daras氏とAlexandros G. Dimakis氏。たとえば、「Apoploe vesrreaitais」が鳥を、「Contarra ccetnxniams luryca tanniounons」が虫かペットを意味するとのこと。このため、「Apoploe vesrreaitaisがContarra ccetnxniams luryca tanniounonsを食べる」のように文章を入力すると、鳥が虫を食べる画像が表示されます。


DALL・E 2はもともとテキストを扱うのが上手ではないとのことで、「2人の農家が野菜について話している、字幕付きで」と入力すると、2人の農家が意味不明な言葉を話している画像が表示されます。Daras氏によれば、背景に出てくるテキストはランダムに出ているわけではないらしく……


先ほどの画像の背景に登場した「Vicootes」という単語で画像生成を行うと、野菜の画像が得られたとのこと。同様に、画像内に登場した「Apoploe vesrreaitais」という単語で画像生成すると、鳥の画像が得られたとのこと。つまり、先ほど意味不明に見えた会話は、DALL・E 2としては「農家が野菜を食べる鳥について話しているところ」として生成したものだと考えられるというわけです。


「2頭のクジラが食べ物について話している、字幕付き」という文章を入力すると、クジラが「Wa ch zod rea」と話している画像が生成されます。「Wa ch zod rea」で画像生成した結果が実際に食べ物の画像だったことから、Daras氏は、「クジラが(DALL・E 2の言語で)食べ物について話をしている画像が作られた」と解釈しています。


Daras氏によると、DALL・E 2の言語には不条理な文章を生み出す単語もあるとのこと。たとえば「Apoploe vesrreaitaisの絵」という入力だと鳥の絵が得られるのですが、モデルによって「Apoploe vesrreaitais」は「空を飛ぶもの」ぐらいの意味になるようです。


このDALL・E 2言語の発見により、セキュリティや解釈可能性に関して多くの興味深い課題が生まれたとDaras氏は述べています。


一方で、リサーチ研究者のベンジャミン・ヒルトン氏は「DALL・Eに秘密の言語はないか、少なくともまだ我々は発見できていない」という立場を示しました。


Daras氏の論文では「Contarra ccetnxniams luryca tanniounons」が虫や害虫の意味となっていますが、ヒルトン氏の調べでは、動物の画像もたくさん出てくるとのこと。


もしDALL・Eに秘密の言語があるのであれば、DALL・Eで変換すればすべて同様の法則に基づいた形で変換されるはずですが、ヒルトン氏が「Contarra ccetnxniams luryca tanniounons」に「3Dレンダリング」という条件を追加すると、虫ではなく海の生き物の画像ばかり生成されるようになったとのこと。


同様に、「カートゥーン」や「絵」という条件を加えると、おばあちゃん画像ばかりに。


次にヒルトン氏が確かめたのは、Daras氏が「鳥を意味する」と主張する「Apoploe vesrreaitais」。


これも同様に「カートゥーン」や「絵」の条件を加えると、虫が多く表示され、鳥はまったく出てこなかったとのこと。このことから、ヒルトン氏は「結果はあくまで偶然の産物」か、あるいは言葉に2つの意味があるかだと推測しました。


その上で、「Apoploe vesrreaitaisがContarra ccetnxniams luryca tanniounonsを食べる」という組み合わせを調べると、鳥は出てきたものの、虫は出てきませんでした。


続いてヒルトン氏が検証したのは、「野菜」を意味するとの主張があった「Vicootes」。しかしこれも条件を加えると、それぞれの条件ごとにバラバラの結果となりました。


これらの結果を受けて、ヒルトン氏は「秘密のDALL・E言語があるというより、確率的でランダムなノイズのように思える」とコメント。


さらにヒルトン氏は、DALL・Eが生成する画像に書かれる文字列についても調査を実施。


「2頭のクジラが食べ物について話している」という、Daras氏が用いた入力内容を利用して、なんとか書き写せるような文字列が生成された最初の画像がコレ。「Evve waeles」と読める文字列が出力されています。


この「Evve waeles」をDALL・E 2に入力するとデザートや動物、スポーツなどの画像が得られました。


「Evve waeles」は特に意味がないか、「whales(クジラ)」が転訛したものと考えられます。このことから、「Daras氏は幸運なことに、クジラが『Wa ch zod rea』と発言し、実際にその言葉で食べ物の画像が得られたのです」とヒルトン氏は述べています。


以上のことから、ヒルトン氏はフェアに考えて、Daras氏が「Apoploe vesrreaitais」を入力すると常に鳥の写真が生成されるのであれば、やはり何かはあるのだろうとコメント。


ただし、だからといって「DALL・Eに秘密の言語がある」や「DALL・Eが出力した文字列が何かを意味する」ことの証拠にはならず、もし違うのであれば証明されるのを楽しみにしてる、と締めくくりました。

この記事のタイトルとURLをコピーする

・関連記事
「バイクに乗るピカチュウ」「アボカドの椅子」など言葉から自動でイラストや写真を生成するAI「DALL・E」 - GIGAZINE

AIは人間と同じように言葉の意味を「理解」しているのか? - GIGAZINE

Google翻訳のAIは独自の「中間言語」を習得して「学習してない言語間の翻訳」すら可能な段階に突入 - GIGAZINE

OpenAIが入力した自然言語から自動でコードを出力するAIシステム「Codex」をリリース - GIGAZINE

in サイエンス, Posted by logc_nt

You can read the machine translated English article here.