ComeJisyo プロジェクト日本語トップページ - OSDN

プロジェクトの説明


   医療記録の分かち書きを支援するために実践医療用語辞書ComeJisyoと、分かち書き結果から合成語を生成するツール「GoMusubi」を公開しています。

   ComeJisyoは、形態素解析器MeCabのユーザ辞書として用います。

   Mecabのシステム辞書IPA辞書の影響に加え、ComeJisyoの品詞誤りもあり、ComeJisyoの見出し語が過分割される場合があります。

   そこで、解析結果の品詞を元に合成語を生成するツール「GoMusubi」を作成しました。

   公開履歴

   2021年 4月  Wcompounder_Ver.1.0

     GoMusubi_Ver.2.0を構成するプログラムの内、合成語を生成するプログラムのソースコードを公開します。

     動作環境 : Windows10(64ビット)

     使用言語 : python3.8

   2021年 4月  GoMusubi_Ver.2.0

     GoMusubi_Ver.1.0の仕様を変更し、合成語を生成したファイルを入力して繰り返し合成語を生成できるようにしました。

     動作環境 : Windows10(64ビット)

     使用ソフト: 形態素解析器MeCab

     使用辞書 : ComeJisyoUtf8-3

     文字コード: Utf-8

   2021年 3月  GoMusubi_Ver.1.0

     今回、Pyinstallerによりにexe化した実行プログラムを公開します。

     動作環境 : Windows10(64ビット)

     使用ソフト: 形態素解析器MeCab

     使用辞書 : ComeJisyoUtf8-3

     文字コード: Utf-8

   2021年 3月  ComeJisyoUtf8-3

     文字コード: Utf-8

     登録語数 : 118,404語

   2020年 7月  ComeJisyoUtf8-2r1

     ComeJisyoUtf8-2の英語表記に重複のバグがありましたので、訂正版を公開いたします。

     文字コード: Utf-8

     登録語数 : 114,957語

   2020年 5月  ComeJisyoUtf8-2

     文字コード: Utf-8

     登録語数 : 114,957語

   2020年 4月  ComeJisyoSjis-2

     文字コード: shift_JIS

     登録語数 : 113,553語

   2019年 4月  ComeJisyoSjis-1

     文字コード: shift_JIS

     登録語数 : 111,664語

   2018年11月 ComeJisyoUtf8-1 

     文字コード: Utf-8 (BOM無し) 

     登録語数 : 75,861語

   2013年11月 ComeJisyoV5-1 

     文字コード: shift_JIS     

     登録語数 : 77,760語

システム要件

Mecab-0.99用ユーザ辞書(ipadic)

ダウンロード

win32 Windows ComeJisyoUtf8-3.zip (日付: 2021-03-29, サイズ: 9.68 MB)
macosx Mac ComeJisyoUtf8-3.zip (日付: 2021-03-29, サイズ: 9.68 MB)
linux Linux ComeJisyoUtf8-3.zip (日付: 2021-03-29, サイズ: 9.68 MB)
unix_unknown UNIX ComeJisyoUtf8-3.zip (日付: 2021-03-29, サイズ: 9.68 MB)

レビュー
あなたの評価
レビューする

統計情報

最新の動き