|
# [medbert](https://github.com/trueto/medbert) |
|
本项目开源硕士毕业论文“BERT模型在中文临床自然语言处理中的应用探索与研究”相关模型 |
|
|
|
## 评估基准 |
|
构建了中文电子病历命名实体识别数据集(CEMRNER)、中文医学文本命名实体识别数据集(CMTNER)、 |
|
|
|
中文医学问句-问句识别数据集(CMedQQ)和中文临床文本分类数据集(CCTC)。 |
|
|
|
| **数据集** | **训练集** | **验证集** | **测试集** | **任务类型** | **语料来源** | |
|
| ---- | ---- | ---- |---- |---- |:----:| |
|
| CEMRNER | 965 | 138 | 276 | 命名实体识别 | 医渡云 | |
|
| CMTNER | 14000 | 2000 | 4000 | 命名实体识别 | CHIP2020 | |
|
| CMedQQ | 14000 | 2000 | 4000 | 句对识别 | 平安医疗 | |
|
| CCTC | 26837 | 3834 | 7669 | 句子分类 | CHIP2019 | |
|
|
|
## 开源模型 |
|
在6.5亿字符中文临床自然语言文本语料上基于BERT模型和Albert模型预训练获得了MedBERT和MedAlbert模型。 |
|
|
|
## 性能表现 |
|
在同等实验环境,相同训练参数和脚本下,各模型的性能表现 |
|
|
|
| **模型** | **CEMRNER** | **CMTNER** | **CMedQQ** | **CCTC** | |
|
| :---- | :----: | :----: | :----: | :----: | |
|
| [BERT](https://huggingface.co/bert-base-chinese) | 81.17% | 65.67% | 87.77% | 81.62% | |
|
| [MC-BERT](https://github.com/alibaba-research/ChineseBLUE) | 80.93% | 66.15% | 89.04% | 80.65% | |
|
| [PCL-BERT](https://code.ihub.org.cn/projects/1775) | 81.58% | 67.02% | 88.81% | 80.27% | |
|
| MedBERT | 82.29% | 66.49% | 88.32% | **81.77%** | |
|
|MedBERT-wwm| **82.60%** | 67.11% | 88.02% | 81.72% | |
|
|MedBERT-kd | 82.58% | **67.27%** | **89.34%** | 80.73% | |
|
|- | - | - | - | - | |
|
| [Albert](https://huggingface.co/voidful/albert_chinese_base) | 79.98% | 62.42% | 86.81% | 79.83% | |
|
| MedAlbert | 81.03% | 63.81% | 87.56% | 80.05% | |
|
|MedAlbert-wwm| **81.28%** | **64.12%** | **87.71%** | **80.46%** | |
|
|
|
## 引用格式 |
|
``` |
|
杨飞洪,王序文,李姣.BERT模型在中文临床自然语言处理中的应用探索与研究[EB/OL].https://github.com/trueto/medbert, 2021-03. |
|
``` |