lighttransport
/

japanese-scoring-model

Model card Files Files and versions Community

japanese-scoring-model / README.md

Syoyo Fujita

Add missing separator.

7b6489b about 1 year ago

|

history blame contribute delete

3.73 kB

	---
	language:
	- ja
	tags:
	- scoring
	license: odc-by
	---

	## 日本語品質スコアリングモデル

	現在は KenLM モデルのみ提供されています.

	## KenLM model

	- kenlm_model-wiki-nfkc-char.bin
	Wikipedia データセットに対して, NFKC 正規化を行い, 文字単位で train したもの.

	- kenlm_model-wiki-nfkc-wakachi.bin
	Wikipedia データセットに対して, NFKC 正規化を行い, Fugashi で分かち書きして train したもの.
	9 GB ほどあります.

	### 利用例

	文字単位の場合.
	必要に応じて `unicodedata.normalize` などで入力文章を NFKC 正規化ください.

	```py
	import kenlm
	import os

	MODEL_BIN='kenlm_model-wiki-nfkc-char.bin'

	if __name__ == '__main__':
	if not os.path.exists(MODEL_BIN):
	raise Exception("model file not found: {}".format(MODEL_BIN))
	model = kenlm.LanguageModel(MODEL_BIN)

	for txt in [
	"脱字が存在する文章です。",
	"脱字が存在する文章す。",
	'東京はッ晴れ。',
	'東京は元気です。',
	'吾輩は猫である。名前はまだない。',
	'吾輩は猫である。名前はまだな。',
	'東京は晴れ',
	'東京は晴れ。'
	]:
	sentence = " ".join(txt.strip())
	prob = model.score(sentence, bos=True, eos=True)
	perplexity = model.perplexity(sentence)
	print(perplexity, prob, txt)

	```

	```
	43.35517516360913 -21.281532287597656 脱字が存在する文章です。
	97.87160125641132 -23.887880325317383 脱字が存在する文章す。
	436.3376833313477 -21.118581771850586 東京はッ晴れ。
	28.211570751481222 -13.053845405578613 東京は元気です。
	10.25990652099858 -17.189437866210938 吾輩は猫である。名前はまだない。
	18.742658903324944 -20.365299224853516 吾輩は猫である。名前はまだな。
	1707.9430028946922 -19.394840240478516 東京は晴れ
	62.91522904283418 -12.591290473937988 東京は晴れ。
	```

	分かち書きする場合. 分かち書き処理には, SudachiPy など利用でもよいでしょう.
	必要に応じて `unicodedata.normalize` などで入力文章を NFKC 正規化ください.

	```py
	import kenlm
	import os
	from fugashi import Tagger

	MODEL_BIN='kenlm_model-wiki-nfkc-wakachi.bin'

	tagger = Tagger('-Owakati')

	if __name__ == '__main__':
	if not os.path.exists(MODEL_BIN):
	raise Exception("model file not found: {}".format(MODEL_BIN))
	model = kenlm.LanguageModel(MODEL_BIN)

	# 句点ごとの文に対してスコア計算が理想である
	for txt in [
	"脱字が存在する文章です。",
	"脱字が存在する文章す。",
	'東京はッ晴れ。',
	'東京は元気です。',
	'吾輩は猫である。名前はまだない。',
	'吾輩は猫である。名前はまだな。',
	'東京は晴れ',
	'東京は晴れ。'
	]:
	sentence = tagger.parse(txt.strip())
	prob = model.score(sentence, bos=True, eos=True)
	perplexity = model.perplexity(sentence)
	print(perplexity, prob, txt)
	```

	```
	799.5157517342569 -23.22261619567871 脱字が存在する文章です。
	1427.360337285063 -25.236268997192383 脱字が存在する文章す。
	3103.9820393600435 -20.951515197753906 東京はッ晴れ。
	186.32902872137998 -13.621683120727539 東京は元気です。
	25.350235809904472 -16.8477840423584 吾輩は猫である。名前はまだない。
	113.43313945517427 -24.656879425048828 吾輩は猫である。名前はまだな。
	17985.3170652363 -17.019672393798828 東京は晴れ
	354.6946680891273 -12.749273300170898 東京は晴れ。
	```

	## License

	odc-by