Hotwords and ngram files used in wenet.
.
├── models
│ └── hotwords.yaml
Evaluation
Base Acoustic model: 20210601_u2++_conformer_exp
Tested ENV
- CPU:40 Core, Intel(R) Xeon(R) Silver 4210 CPU @ 2.20GHz
- GPU:NVIDIA GeForce RTX 2080 Ti
model (FP16) | RTF | CER |
---|---|---|
offline model w/o hotwords | 0.00437 | 4.6805 |
offline model w/ hotwords | 0.00428 | 4.5841 |
streaming model w/o hotwords | 0.01231 | 5.2777 |
streaming model w/ hotwords | 0.01195 | 5.1850 |
model (FP16) | Latency (s) | CER | Recall | Precision | F1-score |
---|---|---|---|---|---|
offline model w/o hotwords | 5.8673 | 13.85 | 0.27 | 0.99 | 0.43 |
offline model w/ hotwords | 5.6601 | 11.96 | 0.47 | 0.97 | 0.63 |
Decoding result
Label | hotwords | pred w/o hotwords | pred w/ hotwords |
---|---|---|---|
以及拥有陈露的女单项目 | 陈露 | 以及拥有陈鹭的女单项目 | 以及拥有陈露的女单项目 |
庞清和佟健终于可以放心地考虑退役的事情了 | 庞清 佟健 |
庞青和董建终于可以放心地考虑退役的事情了 | 庞清和佟健终于可以放心地考虑退役的事情了 |
赵继宏老板电器做厨电已经三十多年了 | 赵继宏 | 赵继红老板电器做厨店已经三十多年了 | 赵继宏老板电器做厨电已经三十多年了 |
Result Files
.
└── results
├── aishell1_testsets
│ ├── offline_with_hotwords_orderAuto.log
│ ├── offline_without_hotwords.log
│ ├── stream_with_hotwords_orderAuto.log
│ └── stream_without_hotwords.log
└── speech_asr_aishell1_hotwords_testsets
├── aishell1_text_hotwords
├── with_hotwords_ali.log
└── without_hotwords_ali.log
NER evaluation script
cd ner
python compute_hotwords_f1.py \
--label="data/aishell1_text_hotwords" \
--preds="data/with_hotwords_ali.log;data/without_hotwords_ali.log" \
--hotword="data/hotwords.yaml"