emilyalsentzer
/

Bio_ClinicalBERT

Inference Endpoints

Model card Files Files and versions Community

Bio_ClinicalBERT / README.md

manxiaoman0's picture

Update README.md

97e5cb7 over 1 year ago

|

2.45 kB

	---
	语言: 恩
	标签:
	- 填充掩模
	许可证: 麻省理工学院

	---

	#生物+临床BERT模型

	这[公开可用的临床BERT嵌入](https://arxiv.org/abs/1904.03323)论文包含四个独特的临床BERT模型：初具规模（`外壳式`) 或生物工程师（`生物BERT基础版1.0+PubMed 200K+270K`），并接受过所有模拟笔记或仅进行出院总结的培训。

	这张模型卡描述了生物+临床BERT模型，它是从[生物伯特](https://arxiv.org/abs/1901.08746)并对所有模拟笔记进行了培训。

	##训练前数据
	这`生物_临床BE RT`模型训练的所有音符[模拟三](https://www.nature.com/articles/sdata201635)，一个包含来自马萨诸塞州波士顿贝斯以色列医院ICU患者的电子健康记录的数据库。有关MIMIC的更多详细信息，请参见[在这里](https://mimic.physionet.org/). 中的所有注释`注意事项`表包括（880M字）

	##模型预训练

	###注意预处理
	模拟器中的每个记录首先使用基于规则的部分分割器拆分成部分（例如，出院总结记录分为“当前疾病史“、“家族史”、“简要住院过程”等部分）。然后每一部分被分成句子使用SciSpacy（`核心科学医学博士`标记器）。

	###培训前程序
	该模型的训练使用的代码从[谷歌的BERT存储库](https://github.com/google-research/bert)在12 GB的图形处理器上运行。用比奥贝特初始模型参数（`生物BERT基础版1.0+PubMed 200K+270K`).

	###训练前超参数
	我们使用了一个批大小为32，最大序列长度为128，学习率为5.105的预训练我们的模型。所有笔记训练的模型被训练了150,000步。使用不同掩码复制输入数据的DUP因子被设置为5。使用了所有其他默认参数（具体而言，屏蔽语言模型概率=0.15
	和每个序列最大预测值＝20）。

	##如何使用模型

	通过变压器库加载模型：
	```
	从变压器导入自动标记器、自动建模
	自动令牌化器。"埃米尔·森策尔生物_临床应用")
	模型=AutoModel.from_pretrained("emilyalsentzer/Bio_ClinicalBERT")
	```

	##更多信息

	参考原文，[公开可用的临床BERT嵌入](https://arxiv.org/abs/1904.03323)NAACL临床NLP研讨会2019有关NLI和NER任务的其他详细信息和性能。

	##问题吗？

	发布一个关于Github的问题[临床放射治疗回收](https://github.com/EmilyAlsentzer/clinicalBERT)或电子邮件emilya@mit.edu有任何问题。