drewThomasson commited on
Commit
175565c
1 Parent(s): 5adcedf

Delete unidic-3.1.0

Browse files
unidic-3.1.0/README DELETED
@@ -1,110 +0,0 @@
1
- ■■■ このパッケージの構成 ■■■
2
-
3
- ・README: このファイル
4
- ・UniDicMA 本体ファイル群(MeCab用短単位解析辞書。バイナリ化済みなのでそのまま使用可)
5
- ・UniDicMA 学習時の途中経過ファイル群
6
- - licenses: ライセンス関係のファイル群を格納
7
- - eval: このUniDicMAの短単位自動解析結果の精度および、性能評価のために学習に利用したコーパス名・ファイル名のリストファイルを格納
8
- -・ eval/score.txt: 以下の学習・評価用データを使った短単位自動解析性能
9
- -・ eval/train_list.tsv: 性能評価の際のMeCab学習用データ一覧(コーパス名+コーパス内ファイル名)
10
- -・ eval/test_list.tsv: 性能評価の際の評価用データ一覧(コーパス名+コーパス内ファイル名)。train_list.tsvとのオーバーラップはない。
11
- - ChaMame 1.0.3 for Windows: Window OS のみで動作するUI、chamame インストーラーを格納(分類語彙表DBを内包しているため、このディレクトリのみ別ライセンス)
12
- - sql: このUniDicMAを学習するためのコーパスおよび語彙をDBから抽出するために使ったsqlを格納。所内向けの備忘録的な意味合いが強い。
13
-
14
-
15
-
16
- ■■■ 辞書情報 ■■■
17
-
18
- 辞書のキーをNFKC正規化したエントリを含む延べ短単位数:
19
- 879,222
20
-
21
- 辞書のキーをNFKC正規化したエントリを含まない延べ短単位数:
22
- 870,629
23
-
24
- 辞書のキーをNFKC正規化したエントリを含む階層的な見出し語を考慮しない表層形の異なり数:
25
- 674,928
26
-
27
- 書字形出現形数:
28
- 870,589
29
-
30
- 発音形出現形数:
31
- 447,734
32
-
33
- 語形出現形数:
34
- 447,709
35
-
36
- 書字形基本形数:
37
- 371,949
38
-
39
- 発音形基本形数:
40
- 246,898
41
-
42
- 語形基本形数:
43
- 246,873
44
-
45
- 語彙素数:
46
- 228,315
47
-
48
- 各値の詳細は以下のURLを参照
49
- https://unidic.ninjal.ac.jp/faq#count_suw
50
-
51
- また各値のカウントには以下のスクリプトを使用
52
- https://github.com/teru-oka-1933/unidic_ma_factory
53
- https://github.com/teru-oka-1933/unidic_ma_factory/blob/master/ph8_count_suw.py
54
-
55
- 解析性能に関しては、evalディレクトリを参照
56
-
57
-
58
-
59
- ■■■ 更新情報 ■■■
60
-
61
-
62
- □□□□□□□□ 2.3.0 更新 □□□□□□□□
63
-
64
- 短単位規定「補則1 略語として扱わない外来語の最小単位」を修正
65
-
66
- 【修正前】
67
- 省略された外来語の最小単位のうち, 表3 .2に掲げたものは省略された外来語の最小単位として扱わない。
68
- 【修正後】
69
- 省略された外来語の最小単位のうち, 表3 .2に掲げたようなものは省略された外来語の最小単位として扱わない。
70
-
71
- 【修正前】
72
- 表3 .2 略語として扱わない外来語の最小単位
73
- 【修正後】
74
- 表3 .2 略語として扱わない外来語の最小単位の例
75
-
76
- これにより、これまで1短単位とみなしてきたアルミホイル、アルミサッシ、デフレスパイラル、インフレスパイラルを1短単位としてみなさない。
77
-
78
-
79
- □□□□□□□□ 3.0.0.0 更新 □□□□□□□□
80
-
81
- 一部の動詞・形容詞において、連用形-ウ音便の発音形に二重の長音符号が展開される不具合を修正
82
-
83
- 不具合の例)
84
- 語彙素「覆う(オオウ)」語形「オオウ」(動詞・五段-ワア行-一般)で連用形-ウ音便の発音形が「オーー」となる(正しくは「オオー」)
85
-
86
-
87
- (1)以下の詳細活用型(「Infl」テーブル「活用型」列)の新設、および活用展開の定義
88
- ・五段-ワア行-オウ+う=オ段
89
- ・五段-ワア行-オウ+う=一般
90
- ・五段-ワア行-オウ+ふ=オ段
91
- ・五段-ワア行-オウ+ふ=一般
92
- ・文語四段-ハ行-オウ+う=オ段
93
- ・文語四段-ハ行-オウ+う=一般
94
- ・文語四段-ハ行-オウ+ふ=オ段
95
- ・文語四段-ハ行-オウ+ふ=一般
96
- ・文語形容詞-ク-ウシ=オ段
97
- ・文語形容詞-ク-ウシ=一般
98
- ・文語形容詞-ク-オシ=オ段
99
- ・文語形容詞-ク-オシ=一般
100
-
101
- (2)新しい詳細活用型に該当する語形の活用型の更新
102
- ・五段-ワア行-オウ 28語形
103
- ・文語四段-ハ行-オウ 24語形
104
- ・文語形容詞-ク-ウシ 12語形
105
- ・文語形容詞-ク-オシ 20語形
106
-
107
- (3)以下の詳細活用型の削除
108
- ・文語形容詞-ク-遠シ ※文語形容詞-ク-オシに統合したため
109
-
110
-
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
unidic-3.1.0/mecabrc DELETED
@@ -1 +0,0 @@
1
- # This is a dummy file.
 
 
unidic-3.1.0/model.bin DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:409efa3e3de09d8822a3443d4f97c7fda77c4f8fc991f7abc064f685e346b1c9
3
- size 83718788
 
 
 
 
unidic-3.1.0/rewrite.def DELETED
@@ -1,72 +0,0 @@
1
- # node:
2
- # $1: pos1
3
- # $2: pos2
4
- # $3: pos3
5
- # $4: pos4
6
- # $5: cType
7
- # $6: cForm
8
- # $7: lForm
9
- # $8: lemma
10
- # $9: orth
11
- # $10: pron
12
- # $11: orthBase
13
- # $12: pronBase
14
- # $13: goshu
15
- # $14: iType
16
- # $15: iForm
17
- # $16: fType
18
- # $17: fForm
19
- # $18: iConType
20
- # $19: fConType
21
- # $20: type
22
- # $21: kana
23
- # $22: kanaBase
24
- # $23: form
25
- # $24: formBase
26
- # $25: aType
27
- # $26: aConType
28
- # $27: aModType
29
- # unk:
30
- # $1: pos1
31
- # $2: pos2
32
- # $3: pos3
33
- # $4: pos4
34
- # $5: cType
35
- # $6: cForm
36
-
37
- [unigram rewrite]
38
- BOS/EOS,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,* $1,*,*,*,*,*,*,BOS/EOS,BOS/EOS,BOS/EOS,*,*,BOS/EOS,*,*,*
39
- *,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$7,$8,$9,$11,$10,$12,$13,$25,$26,$27
40
- *,*,*,*,*,* $1,$2,$3,$4,$5,$6,*,*,*,*,*,*,*
41
-
42
- [left rewrite]
43
- BOS/EOS,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,* $1,*,*,*,*,*,BOS/EOS,BOS/EOS,BOS/EOS,*,*,*,*,*,*
44
- 助詞,*,*,*,*,*,*,(の|に|を|て|は|と|が|で|も|の|から|か|が|ね|か|けれど|など|って|と|ば|や|まで|へ|から|より|だけ|な|たり|よ|くらい|ながら|し|ほど|しか),*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$16,$17,$18,$25,$26,$27
45
- 助動詞,*,*,*,*,*,*,(だ|た|ます|です|れる|ず|ない|てる|られる|べし|たい|り|せる|ちゃう),*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$16,$17,$18,$25,$26,$27
46
- 名詞,助動詞語幹,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$16,$17,$18,$25,$26,$27
47
- 形状詞,助動詞語幹,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$16,$17,$18,$25,$26,$27
48
- 動詞,非自立可能,*,*,*,*,*,(為る|居る|有る|成る|見る|行く|来る|出来る|得る|遣る|仕舞う|呉れる|出す|置く|致す|付く|頂く|付ける|貰う|掛ける|続く|始める|続ける|御座る|終わる),*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$16,$17,$18,$25,$26,$27
49
- 動詞,一般,*,*,*,*,*,(於く),*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$16,$17,$18,$25,$26,$27
50
- 形容詞,非自立可能,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$16,$17,$18,$25,$26,$27
51
- 接尾辞,*,*,*,*,*,*,(的|年|者|月|さん|日|パーセント|人|つ|等|日|円|等|化|達|人|さ|性|回|時|氏|所|生|方|分|長|党|目|中|省|歳|内|年度|国|家|後|部|上|車|権|度|力|員|費|書|用|物|型|業|間|メートル|庁|箇月|番|局|機|年間|館|件|時間|社),*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$16,$17,$18,$25,$26,$27
52
- 接頭辞,*,*,*,*,*,*,(第|御|約|不|大|新|各|小|御|非),*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$16,$17,$18,$25,$26,$27
53
- 名詞,数詞,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$16,$17,$18,$25,$26,$27
54
- 補助記号,*,*,*,*,*,*,*,.,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$16,$17,$18,$25,$26,$27
55
- *,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,*,*,$13,$16,$17,$18,$25,$26,$27
56
- *,*,*,*,*,* $1,$2,$3,$4,$5,$6,*,*,*,*,*,*
57
-
58
- [right rewrite]
59
- BOS/EOS,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,* $1,*,*,*,*,*,BOS/EOS,BOS/EOS,BOS/EOS,*,*,*,*,*,*
60
- 助詞,*,*,*,*,*,*,(の|に|を|て|は|と|が|で|も|の|から|か|が|ね|か|けれど|など|って|と|ば|や|まで|へ|から|より|だけ|な|たり|よ|くらい|ながら|し|ほど|しか),*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$14,$15,$19,$25,$26,$27
61
- 助動詞,*,*,*,*,*,*,(だ|た|ます|です|れる|ず|ない|てる|られる|べし|たい|り|せる|ちゃう),*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$14,$15,$19,$25,$26,$27
62
- 名詞,助動詞語幹,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$14,$15,$19,$25,$26,$27
63
- 形状詞,助動詞語幹,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$14,$15,$19,$25,$26,$27
64
- 動詞,非自立可能,*,*,*,*,*,(為る|居る|有る|成る|見る|行く|来る|出来る|得る|遣る|仕舞う|呉れる|出す|置く|致す|付く|頂く|付ける|貰う|掛ける|続く|始める|続ける|御座る|終わる),*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$14,$15,$19,$25,$26,$27
65
- 動詞,一般,*,*,*,*,*,(於く),*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$16,$17,$18,$25,$26,$27
66
- 形容詞,非自立可能,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$14,$15,$19,$25,$26,$27
67
- 接尾辞,*,*,*,*,*,*,(的|年|者|月|さん|日|パーセント|人|つ|等|日|円|等|化|達|人|さ|性|回|時|氏|所|生|方|分|長|党|目|中|省|歳|内|年度|国|家|後|部|上|車|権|度|力|員|費|書|用|物|型|業|間|メートル|庁|箇月|番|局|機|年間|館|件|時間|社),*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$14,$15,$19,$25,$26,$27
68
- 接頭辞,*,*,*,*,*,*,(第|御|約|不|大|新|各|小|御|非),*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$14,$15,$19,$25,$26,$27
69
- 名詞,数詞,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$14,$15,$19,$25,$26,$27
70
- 補助記号,*,*,*,*,*,*,*,.,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,$9,$10,$13,$14,$15,$19,$25,$26,$27
71
- *,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,* $1,$2,$3,$4,$5,$6,*,*,$13,$14,$15,$19,$25,$26,$27
72
- *,*,*,*,*,* $1,$2,$3,$4,$5,$6,*,*,*,*,*,*
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
unidic-3.1.0/right-id.def DELETED
The diff for this file is too large to render. See raw diff
 
unidic-3.1.0/sys.dic DELETED
@@ -1,3 +0,0 @@
1
- version https://git-lfs.github.com/spec/v1
2
- oid sha256:f019f95838242cd614953a25201ad0b623b9c1cbca90de2507df4510db1b192c
3
- size 243373840
 
 
 
 
unidic-3.1.0/unk.def DELETED
@@ -1,35 +0,0 @@
1
- DEFAULT,537,4387,-1179,補助記号,一般,*,*,*,*
2
- SPACE,5879,8940,1986,空白,*,*,*,*,*
3
- KANJI,14643,14497,10330,名詞,普通名詞,一般,*,*,*
4
- KANJI,10006,850,12831,名詞,普通名詞,サ変可能,*,*,*
5
- KANJI,126,11540,13049,名詞,固有名詞,一般,*,*,*
6
- KANJI,9013,6742,13322,名詞,固有名詞,人名,一般,*,*
7
- KANJI,244,9663,14806,名詞,固有名詞,地名,一般,*,*
8
- SYMBOL,537,4387,9756,補助記号,一般,*,*,*,*
9
- NUMERIC,8070,14651,6895,名詞,数詞,*,*,*,*
10
- ALPHA,14643,14497,6560,名詞,普通名詞,一般,*,*,*
11
- ALPHA,126,11540,9279,名詞,固有名詞,一般,*,*,*
12
- ALPHA,9013,6742,9552,名詞,固有名詞,人名,一般,*,*
13
- ALPHA,244,9663,11036,名詞,固有名詞,地名,一般,*,*
14
- ALPHA,6367,2250,8343,感動詞,一般,*,*,*,*
15
- HIRAGANA,14643,14497,11197,名詞,普通名詞,一般,*,*,*
16
- HIRAGANA,10006,850,13699,名詞,普通名詞,サ変可能,*,*,*
17
- HIRAGANA,126,11540,13917,名詞,固有名詞,一般,*,*,*
18
- HIRAGANA,9013,6742,14189,名詞,固有名詞,人名,一般,*,*
19
- HIRAGANA,244,9663,15673,名詞,固有名詞,地名,一般,*,*
20
- HIRAGANA,6367,2250,10147,感動詞,一般,*,*,*,*
21
- KATAKANA,14643,14497,5001,名詞,普通名詞,一般,*,*,*
22
- KATAKANA,10006,850,7503,名詞,普通名詞,サ変可能,*,*,*
23
- KATAKANA,126,11540,7720,名詞,固有名詞,一般,*,*,*
24
- KATAKANA,9013,6742,7993,名詞,固有名詞,人名,一般,*,*
25
- KATAKANA,244,9663,9477,名詞,固有名詞,地名,一般,*,*
26
- KATAKANA,6367,2250,7713,感動詞,一般,*,*,*,*
27
- KANJINUMERIC,8070,14651,9034,名詞,数詞,*,*,*,*
28
- GREEK,14643,14497,7003,名詞,普通名詞,一般,*,*,*
29
- GREEK,126,11540,9722,名詞,固有名詞,一般,*,*,*
30
- GREEK,9013,6742,9995,名詞,固有名詞,人名,一般,*,*
31
- GREEK,244,9663,11479,名詞,固有名詞,地名,一般,*,*
32
- CYRILLIC,14643,14497,6849,名詞,普通名詞,一般,*,*,*
33
- CYRILLIC,126,11540,9568,名詞,固有名詞,一般,*,*,*
34
- CYRILLIC,9013,6742,9841,名詞,固有名詞,人名,一般,*,*
35
- CYRILLIC,244,9663,11325,名詞,固有名詞,地名,一般,*,*
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
unidic-3.1.0/unk.dic DELETED
Binary file (5.48 kB)
 
unidic-3.1.0/version DELETED
@@ -1 +0,0 @@
1
- unidic-3.1.0+2021-08-31