medbert

本项目开源硕士毕业论文“BERT模型在中文临床自然语言处理中的应用探索与研究”相关模型

评估基准

构建了中文电子病历命名实体识别数据集（CEMRNER）、中文医学文本命名实体识别数据集（CMTNER）、

中文医学问句-问句识别数据集（CMedQQ）和中文临床文本分类数据集（CCTC）。

数据集	训练集	验证集	测试集	任务类型	语料来源
CEMRNER	965	138	276	命名实体识别	医渡云
CMTNER	14000	2000	4000	命名实体识别	CHIP2020
CMedQQ	14000	2000	4000	句对识别	平安医疗
CCTC	26837	3834	7669	句子分类	CHIP2019

在6.5亿字符中文临床自然语言文本语料上基于BERT模型和Albert模型预训练获得了MedBERT和MedAlbert模型。

在同等实验环境，相同训练参数和脚本下，各模型的性能表现

模型	CEMRNER	CMTNER	CMedQQ	CCTC
BERT	81.17%	65.67%	87.77%	81.62%
MC-BERT	80.93%	66.15%	89.04%	80.65%
PCL-BERT	81.58%	67.02%	88.81%	80.27%
MedBERT	82.29%	66.49%	88.32%	81.77%
MedBERT-wwm	82.60%	67.11%	88.02%	81.72%
MedBERT-kd	82.58%	67.27%	89.34%	80.73%
-	-	-	-	-
Albert	79.98%	62.42%	86.81%	79.83%
MedAlbert	81.03%	63.81%	87.56%	80.05%
MedAlbert-wwm	81.28%	64.12%	87.71%	80.46%

杨飞洪,王序文,李姣.BERT模型在中文临床自然语言处理中的应用探索与研究[EB/OL].https://github.com/trueto/medbert, 2021-03.