2005-10-01から1ヶ月間の記事一覧
特別編24 では、互換等価の例として「Ⅲ」U+2162 が出ているんですが、これを NFKD または NFKC で正規化した場合、U+0049 な 「I」 の三文字「III」へと変換されるんですね。 U+2162 ↓NFKD、NFKC U+0049 U+0049 U+0049 これはこれで、バイト列が 3倍になるの…
互換漢字 U+FA19 は、正規化すると統合漢字 U+795E に変換されます。istrings で取り出した文字列を、wiconv で正規化すると互換漢字 U+FA19 は U+795E に変換されるので、「神」を検索すれば一致するようになりますね。 他にも例えば「車」U+8ECA の互換漢…
Mac OS X のテキストエディットでは U+795E を検索すると U+FA19 も一致してくれますが、 Word 2003 で「神」の検索を試したところ「あいまい検索」を有効にしても互換漢字の U+FA19 は一致しないようです。“漢字表記のゆれ(異体字)”をチェックしておけば…
wiconv-0.3 がリリースされるようなので、、正規化についてもっと勉強しておこうと、「文字の海、ビットの舟」の連載 特別編25 を読む。 特別編25 JIS X 0213の改正は、文字コードにどんな未来をもたらすか(8) 番外編:改正JIS X 0213とUnicodeの等価属性…
例えば「A1C」「A2C」「A3C」のように A と C の間に任意の1文字が含まれる文字列を検索する場合、EnCase の正規表現では「A.C」とか書くことになるかと思います。 しかし、「A U+10000 C」という文字列の場合、実際には「A U+D800 U+DC00 C」がディスク上の…
U+10000 な文字はファイル名に利用することもできるので、EFE 5.04a でどう表示されるかも確認してみました。フォントに Arial Unicode MS を指定している場合、U+10000 は □ で表示されますが、MFT レコード(のファイル名を記録しているバイト列)を直接確…
Unicode スカラー値 U+10000 〜 U+10FFFF の範囲にある文字を UTF-16 で扱う場合、サロゲートペアが使われるので、Word の作成したファイルというか、ディスク上のバイト列も当然サロゲートペアで記録されることになります。 例えば U+10000 は、 UTF-16 で…
ということで?id:hasegawayosuke:20051025#1130167134 で教えていただいた以下の URL を眺めてみる。 Searching for supplementary characters http://blogs.msdn.com/michkap/archive/2005/10/24/483965.aspx サロゲートペアな文字の検索ということですか.…
一週間もさぼってますな>はてな日記 半分は風邪の影響でくたばってたので仕方がないとしても、ご指名なサロゲートペアに関する件も書いてないなぁ...orz サロゲートペアな文字を Windows で試そうとか思って、幾つか試しているんですが Arial Unicode MS で…
展示会に足を運んだのは、N+I 以来の気がしますが、しばらく見ていなかった為か新鮮な印象がありました(笑)、というかここ最近「文字コード」ばかりでしたので、情報漏えい対策!とか聞くと新鮮に聞こえてしまったりするわけです...orz ブース的に注目した…
ネットエージェントブースにお寄りいただいた皆様*1ありがとうございました。って「お前いなかったぢゃん!!」という噂もありますが、実は 16時ごろから会場に行って1時間ほど見学してただけだったりします。(というか、17時から大事な打ち合わせがあって…
全角平仮名「ぱん」、全角カタカナ「パン」半角片仮名「パン」を検索したい場合、Word のあいまい検索を使えばいずれもヒットしてくれます。 しかし、「は U+309A」や「ハ U+309A」は当然のことながら?曖昧検索でも一致しません。 正規化形式として NFC ま…
正規化形式として、NFKC を利用すると今回想定している U+30B7 U+030B の検索で問題がでてしまいそうですね。 NFKC を利用した場合、「フォレンシ U+3099 ック」は「フォレンジック」へ合成されるので、Word などからは検索しやすくなりますが、「フォレンシ…
istrings と併用すればもう少し簡単かもしれません。dd で作ったディスクイメージファイルから、UTF-8 な文字列を取り出しそれを wiconv で UTF-16LE へ変換、さらに UTF-16LE の文字列を取り出し、ひとつのファイルにまとめます。 istrings -i UTF-8 -f -p …
Unicode エディタの「BabelPad」を使って、「フォレンジック」の「ジ」を正規化してみたいと思います。 ジ U+30B8 のプロパティを BabelPad で確認すると Mapping が U+30B7 U+3099 となっていますので、NFD で正規化すると「シ」と結合可能な濁点 U+3099 に…
EnCase であれば、Grep オプションを利用してこんな正規表現でいけますかね。 フォレンシ.ック シ U+30B7 の後ろに任意の1文字が来るパターンが一致するので、U+030B または別の文字があってもヒットします。ただ、この正規表現では「フォレンショック」でも…
今回使った BlackHat Japan の資料では、タイトル文字列として「フォレンシU+030Bック」と書いてあります。 片仮名の「シ」は U+30B7 ですが、これにわざと濁点っぽく?見える U+030B COMBINING DOUBLE ACUTE ACCENT を結合してあたかも「ジ」U+30B8 のよう…
やっぱり人間なんですよねぇ・・・ コンピュータ・フォレンジック分野がいちばん影響受けるんぢゃないかと思う今日この頃だったりしてます。
BlackHat Japan では、文字マジシャンのお許しを得てデモ*1はしましたが、「葉っぱマジック」?が使われていると検索は失敗しますのでご注意ください(笑)*2 *1:デモした部分は公開資料には入っていません、日本の諸事情に配慮してみました *2:いや本当は笑…
ちょっと補足。 『Valid の項目が真であれば、キーワードをそのコードページで検索できます。』と書いてますが、逆に言えばキーワードとして入力された文字列の影響を受けます。念のために CPCONV で変換できない文字が混じってないか確認したほうがよいと思…
この検索方法では、検索するキーワードとして指定された文字列が、それぞれのコードページへ変換されて(おそらく16進形式で)検索されていると思われます。これは、CPCONV で文字列を 16進数へ変換し、16進数形式のパターンで検索することと基本的には同じに…
私信でご質問いただいたのですが、GSI のメッセージボードを読まれてない方もいらっしゃるようなので、こちらにも貼っておきます。それと、この検索方法の問題点についても後述したいと思います。調査技術ゼミのネタなので詳しくは明日なのですが... EnCase …
確かにそうなのですが、不正アクセスなどに使われる脆弱性って、想定の範囲外で使われてしまうので問題あるわけですよね? 笑い話にしかならない問題を報告されるケースもひょっとしたらあるのかもしれませんが、そこで受理しなかったら開発元は不具合がある…
天下の IPA で攻撃方法を思いつかない不具合は、脆弱性とは認識しないらしい。 ソフトウエア等の脆弱性関連情報に関する届出状況 [2005年第3四半期(7月〜9月)] - IPA http://d.hatena.ne.jp/hasegawayosuke/20051012#1129094820 そこまで言い切るのなら、…
コンピュータ・フォレンジック製品によっては、検索で正規表現を使えたりするわけですが、確かに便利なのですが長い定義になると何かひっかからないのかよくわからなくなってしまう自分がいたり(^^;; 正規表現を使うことで広範囲に検索できるのは嬉しいので…
ここ最近は文字コードな方面を(詳しい方のお知恵をお借りしながら)いろいろと調べているわけですが、某海外製品とかで日本語文字列の検索がヒットしないのを先週だけで 3件ほど報告してみたりしてます。細かいお話は BlakHat Japanか調査技術ゼミでネタにす…