医療記録の分かち書きを支援するために実践医療用語辞書ComeJisyoと、分かち書き結果から合成語を生成するツール「GoMusubi」を公開しています。
ComeJisyoは、形態素解析器MeCabのユーザ辞書として用います。
Mecabのシステム辞書IPA辞書の影響に加え、ComeJisyoの品詞誤りもあり、ComeJisyoの見出し語が過分割される場合があります。
そこで、解析結果の品詞を元に合成語を生成するツール「GoMusubi」を作成しました。
GoMusubi_Ver.2.0を構成するプログラムの内、合成語を生成するプログラムのソースコードを公開します。
動作環境 : Windows10(64ビット)
使用言語 : python3.8
GoMusubi_Ver.1.0の仕様を変更し、合成語を生成したファイルを入力して繰り返し合成語を生成できるようにしました。
動作環境 : Windows10(64ビット)
使用ソフト: 形態素解析器MeCab
使用辞書 : ComeJisyoUtf8-3
文字コード: Utf-8
今回、Pyinstallerによりにexe化した実行プログラムを公開します。
動作環境 : Windows10(64ビット)
使用ソフト: 形態素解析器MeCab
使用辞書 : ComeJisyoUtf8-3
文字コード: Utf-8
文字コード: Utf-8
登録語数 : 118,404語
ComeJisyoUtf8-2の英語表記に重複のバグがありましたので、訂正版を公開いたします。
文字コード: Utf-8
登録語数 : 114,957語
文字コード: Utf-8
登録語数 : 114,957語
文字コード: shift_JIS
登録語数 : 113,553語
文字コード: shift_JIS
登録語数 : 111,664語
文字コード: Utf-8 (BOM無し)
登録語数 : 75,861語
文字コード: shift_JIS
登録語数 : 77,760語