Quinten Datalab commited on
Commit
26fe588
1 Parent(s): c82f21e

Update README.md

Browse files

Details of the model.

Files changed (1) hide show
  1. README.md +67 -1
README.md CHANGED
@@ -5,7 +5,7 @@ language:
5
  library_name: transformers
6
  tags:
7
  - Biomedical
8
- - medical
9
  - French-Biomedical
10
  Mask token:
11
  - [MASK]
@@ -21,4 +21,70 @@ widget:
21
  - text: "La prise de greffe a été systématiquement réalisée au niveau de la face interne de la [MASK] afin de limiter la plaie cicatricielle."
22
  example_title: "Example 5"
23
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
24
  AliBERT: A Pre-trained Language Model for French Biomedical Text
 
5
  library_name: transformers
6
  tags:
7
  - Biomedical
8
+ - Medical
9
  - French-Biomedical
10
  Mask token:
11
  - [MASK]
 
21
  - text: "La prise de greffe a été systématiquement réalisée au niveau de la face interne de la [MASK] afin de limiter la plaie cicatricielle."
22
  example_title: "Example 5"
23
  ---
24
+
25
+ # quinten-datalab/AliBERT-7GB: AliBERT: is a pre-trained language model for French biomedical text. It is trained with masked language model like RoBERTa.
26
+
27
+ # Introduction
28
+
29
+ AliBERT: is a pre-trained language model for French biomedical text. It is trained with masked language model like RoBERTa.
30
+
31
+ Here are the main contributions of our work:
32
+ A French biomedical language model, a language-specific and domain-specific PLM, which can be used to represent French biomedical text for different downstream tasks.
33
+ A normalization of a Unigram sub-word tokenization of French biomedical textual input which improves our vocabulary and overall performance of the models trained.
34
+ AliBERT outperforms other French PLMs in different downstream tasks. It is a foundation model that achieved state-of-the-art results on French biomedical text.
35
+
36
+ # Data
37
+ The pre-training corpus was gathered from different sub-corpora.It is composed of 7GB French biomedical textual documents. Here are the sources used.
38
+
39
+ |Dataset name| Quantity| Size |
40
+ |----|---|---|
41
+ |Drug database| 23K| 550Mb |
42
+ |RCP| 35K| 2200Mb|
43
+ |Articles| 500K| 4300Mb |
44
+ |Thesis| 300K|300Mb |
45
+ |Cochrane| 7.6K| 27Mb|
46
+
47
+
48
+ # How to use alibert-quinten/Oncology-NER with HuggingFace
49
+
50
+ Load quinten-datalab/AliBERT-7GB fill-mask model and the tokenizer used to train AliBERT:
51
+
52
+ ```python
53
+ from transformers import AutoTokenizer, AutoModelForTokenClassification,pipeline
54
+
55
+ tokenizer = AutoTokenizer.from_pretrained("quinten-datalab/AliBERT-7GB")
56
+
57
+ model = AutoModelForTokenMaskedLM.from_pretrained("quinten-datalab/AliBERT-7GB")
58
+
59
+ fill_mask=pipeline("fill-mask",model=model,tokenizer=tokenizer)
60
+ nlp_AliBERT=fill_mask("La prise de greffe a été systématiquement réalisée au niveau de la face interne de la [MASK] afin de limiter la plaie cicatricielle.")
61
+
62
+ [{'score': 0.7724128365516663,
63
+ 'token': 6749,
64
+ 'token_str': 'cuisse',
65
+ 'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la cuisse afin de limiter la plaie cicatricielle.'},
66
+ {'score': 0.09472355246543884,
67
+ 'token': 4915,
68
+ 'token_str': 'jambe',
69
+ 'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la jambe afin de limiter la plaie cicatricielle.'},
70
+ {'score': 0.03340734913945198,
71
+ 'token': 2050,
72
+ 'token_str': 'main',
73
+ 'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la main afin de limiter la plaie cicatricielle.'},
74
+ {'score': 0.030924487859010696,
75
+ 'token': 844,
76
+ 'token_str': 'face',
77
+ 'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la face afin de limiter la plaie cicatricielle.'},
78
+ {'score': 0.012518334202468395,
79
+ 'token': 3448,
80
+ 'token_str': 'joue',
81
+ 'sequence': 'La prise de greffe a été systématiquement réalisée au niveau de la face interne de la joue afin de limiter la plaie cicatricielle.'}]
82
+ ```
83
+
84
+ ## Metrics and results
85
+ The model has been evaluted in the following downstream tasks
86
+
87
+ ## Biomedical Named Entity Recognition (NER)
88
+
89
+ ##
90
  AliBERT: A Pre-trained Language Model for French Biomedical Text