アニメのタイトルを入力する際、変換に手間取ったことはないだろうか。
この記事を読めば、そのような悩みから解放されることになる。
俺は君たちに辞書を配りたい。
アニメタイトル100年分が収録された辞書を。
2016/11/27 更新
辞書データ更新
2016/11/15 更新
辞書データをgithubに上げたことを追記
2016/11/15 更新
416作品追加
タイトルや読み仮名の修正
最強のアニメ辞書
次の文章には誤りがある。
今期で一番おもしろいスポーツアニメは『競女!!!!!!!』である。
わかっただろうか。
正解は「"!"の数が1つ足りない」だ。
このようにアニメのタイトルというものは、正しく入力するのが難しいものもある。それは『競女!!!!!!!!』のように数を間違えやすいものや、『侍霊演武:将星乱』のように読みが分かりにくい*1もの、あるいは『魔法少女なんてもういいですから。』のように句読点が含めているものなどだ。ブログを書く時やTweetする時、こういった作品はタイトルを入力するだけでストレスになる。そしてうっかり間違えたりすると、警察がやって来ることになる。
Google日本語入力をはじめ、最近のIMEはアニメなどのサブカルチャーにも強くなったが、それでもまだまだ力不足を感じてしまうのが現状だ。有名な作品ならともかく、新しい作品やマイナーな作品はスムーズに変換できない。日本のネット文化において、アニメは無視できない程の影響を持っているのだから、これは問題だと言えよう。ただでさえ日本は生産性が低いと言われているのだ。
そこでこれである。
https://raw.githubusercontent.com/anilogia/animedb/master/dict/google-ime-dict.txt
これはGoogle日本語入力用の辞書ファイルである。中身はこのようなデータとなっている。
イモカワムクゾウゲンカンバンノマキ 芋川椋三玄関番之巻 固有名詞 デコボコシンガチョウメイアンノシッパイ 凸凹新画帳 名案の失敗 固有名詞 チャメボウシンガチョウノミフウフシカエシノマキ 茶目坊新画帳 蚤夫婦仕返しの巻 固有名詞 サルカニガッセン 猿蟹合戦 固有名詞 ユメノジドウシャ 夢の自動車 固有名詞 ハナワヘコナイメイトウノマキ 塙凹内名刀之巻 固有名詞 ネコトネズミ 猫と鼠 固有名詞 イタズラポスト いたずらポスト 固有名詞 チャメボウクウキジュウノマキ 茶目坊空気銃の巻 固有名詞 ハナサカジジイ 花咲爺 固有名詞
1917年から2016年秋までのアニメタイトルが9580個*2入っている。
2016/11/16 追記
githubでも公開し始めた。
animedb/google-ime-dict.txt at master · anilogia/animedb · GitHub
後述するようにマスターデータをgithubで管理していることから、こちらのほうが最新版となりがち。
このファイルを右クリックで保存したら以下の手順で辞書を登録する。
Google日本語入力の
辞書ツール
を開く
管理
から新規辞書にインポート
を選択
ダウンロードしたファイルを選択し、辞書名をつける
アニメのタイトルが登録される
例えばどらごんぼーる
と入力すると候補がこうなる。
映画もTVスペシャルもちゃんと出てくるようになる。
まほうしょうじょ
ならこう。
今期アニメである『魔法少女なんてもういいですから。 セカンドシーズン』も当然出てくる。
ソース
元となるデータは当然ここからだ。
ここにあるanimedb.yml
から作品名と読み仮名を抽出することで作成した。
このデータを知らない人のために説明すると、Anilogiaは俺の仲間内で作成したアニメデータベースである。このデータベースを「100年分のアニメ作品リストをExcelデータで公開した」で公開したところ、このようなコメントが付いた。
100年分のアニメ作品リストをExcelデータで公開した - 本しゃぶりgithubでやろうよ
2016/10/08 21:52
もっともだ、ということで現在はgithub上で管理している。それにともなってマスターデータをYAML形式とした。Excelのほうも公開を続けているが、これは最新版ではなくなっている。
また、animedb.yml
には各話情報も含まれている。さすがに全てとは言えないが、それでもデータ量は多く、2016/11/12現在で容量は20MBを超える。
最新版の出力方法
この記事で提供している辞書データは2016/11/15時点のものである。アニメはこれからも増えるし、ミスがあればデータの修正は行われる。すると最新版の辞書が欲しくなるのが自然な流れだろう。というわけで上記animedb.yml
から辞書ファイルを生成する方法も書いておく。
- Docker (https://www.docker.com/) をインストールする
animedb
リポジトリをクローンする:git clone git@github.com:anilogia/animedb.git
- 2 でクローンしたリポジトリのディレクトリに移動
docker-compose run --rm vendors
で依存する python パッケージをインストール(1回だけで良い)docker-compose run --rm dev
でコンテナの起動&シェルを開く./animedb list --format google_ime > output.txt
で、output.txt
という辞書ファイルが生成される
ここが間違っているとか、あの作品が無いとか
可能な限り正確になるように努めているが、なにしろ100年分のデータである。作品数は1万を超え、1クールごとに70作ほどのペースで増加中だ。また、作品名はあっても読み仮名が入力されていないものもある。こういった不備はあって当然と思ってもらいたい*3。
だからこそのgithubである。ミスや不足を見つけたならば、編集に協力してほしい。指摘だけでも大歓迎だ。もしgithubがよくわからないというのであれば、この記事へのブコメでも構わない。何しろミスを見つけるのすら大変な量であるのだ。
あなたのアニオタとしてのスキルが必要とされています。
Anilogia関係の記事
きっかけ
データの使用例