ysakuramoto commited on
Commit
4a25df7
1 Parent(s): 1c77c84

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +11 -11
README.md CHANGED
@@ -35,11 +35,11 @@ model = MobileBertForSequenceClassification.from_pretrained("ysakuramoto/mobileb
35
  |精度|86.4%|85.5%|86.4%|
36
  - 条件
37
  - ライブドアニュースコーパスのタイトルとカテゴリで学習・推論。
38
- - BERTモデルに、"cl-tohoku/bert-base-japanese-whole-word-masking"を利用。
39
- - 推論データ n=1,474。精度はAccuracy
40
- - エポック数=10, lr=1e-4
41
  - 推論時の高速化として、枝刈り・量子化・jitコンパイルを実施。
42
- - Google Colabにて、学習にGPU、推論にCPUを利用。推論はバッチ処理でなく1件ずつ処理。
43
  - それぞれ、学習~推論を3回実施した平均値。
44
 
45
  - 固有表現抽出(MobileBertForTokenClassification)
@@ -50,11 +50,11 @@ model = MobileBertForSequenceClassification.from_pretrained("ysakuramoto/mobileb
50
  |精度|86.4%|82.5%|83.3%|
51
  - 条件
52
  - ストックマーク社さんのwikipediaデータセットで学習・推論。(https://github.com/stockmarkteam/ner-wikipedia-dataset)
53
- - BERTモデルに、"cl-tohoku/bert-base-japanese-whole-word-masking"を利用。
54
- - 推論データ n=2,140。精度は完全一致のf-measure
55
- - エポック数=10, lr=1e-4
56
  - 推論時の高速化として、枝刈り・量子化・jitコンパイルを実施。
57
- - Google Colabにて、学習にGPU、推論にCPUを利用。推論はバッチ処理でなく1件ずつ処理。
58
  - それぞれ、学習~推論を3回実施した平均値。
59
 
60
  # モデルの説明
@@ -69,10 +69,10 @@ model = MobileBertForSequenceClassification.from_pretrained("ysakuramoto/mobileb
69
  - 学習方法
70
  - Google ColabからTPUを用いて学習しました。
71
  1. IB-BERT<sub>LARGE</sub>をlr=5e-4で1Mステップ学習しました。
72
- 1. 240kステップの蒸留後、mobileBERTをlr=5e-4で2Mステップ学習しました。
73
- - トータルで2ヶ月半くらいかかりました。。エラーも出まくってつらかったです。
74
  - tensorflow liteでの利用
75
- - こちらで説明されています。その名の通りモバイルで動かせるんですね。
76
  - https://www.tensorflow.org/lite/examples/bert_qa/overview
77
 
78
  # ライセンス
 
35
  |精度|86.4%|85.5%|86.4%|
36
  - 条件
37
  - ライブドアニュースコーパスのタイトルとカテゴリで学習・推論。
38
+ - 比較対象のBERTモデルに"cl-tohoku/bert-base-japanese-whole-word-masking"を利用。
39
+ - 推論データ n=1,474。精度はAccuracy
40
+ - 学習パラメータ: エポック数=10, lr=1e-4
41
  - 推論時の高速化として、枝刈り・量子化・jitコンパイルを実施。
42
+ - Google Colabにて、学習にGPU、推論にCPUを利用。バッチ処理でなく1件ずつ推論。
43
  - それぞれ、学習~推論を3回実施した平均値。
44
 
45
  - 固有表現抽出(MobileBertForTokenClassification)
 
50
  |精度|86.4%|82.5%|83.3%|
51
  - 条件
52
  - ストックマーク社さんのwikipediaデータセットで学習・推論。(https://github.com/stockmarkteam/ner-wikipedia-dataset)
53
+ - 比較対象のBERTモデルに"cl-tohoku/bert-base-japanese-whole-word-masking"を利用。
54
+ - 推論データ n=2,140。精度は完全一致のf-measure
55
+ - 学習パラメータ: エポック数=10, lr=1e-4
56
  - 推論時の高速化として、枝刈り・量子化・jitコンパイルを実施。
57
+ - Google Colabにて、学習にGPU、推論にCPUを利用。バッチ処理でなく1件ずつ推論。
58
  - それぞれ、学習~推論を3回実施した平均値。
59
 
60
  # モデルの説明
 
69
  - 学習方法
70
  - Google ColabからTPUを用いて学習しました。
71
  1. IB-BERT<sub>LARGE</sub>をlr=5e-4で1Mステップ学習しました。
72
+ 1. IB-BERT<sub>LARGE</sub>モデルを240kステップ蒸留後、mobileBERTをlr=5e-4で2Mステップ学習しました。
73
+ - トータルで2ヶ月半くらいかかりました。。エラー出まくってつらかったです。
74
  - tensorflow liteでの利用
75
+ - こちらで説明されています。その名の通りモバイルのためのモデルなんですね。
76
  - https://www.tensorflow.org/lite/examples/bert_qa/overview
77
 
78
  # ライセンス