File size: 4,868 Bytes
421f98c f1c8176 917720e 56f298c ca07693 56f298c 4a49aa6 56f298c 2f0edd7 4a49aa6 2f0edd7 4a49aa6 56f298c fdfbda2 56f298c fdfbda2 56f298c |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 |
---
datasets:
- gguichard/coref_dataset
language:
- fr
library_name: transformers
widget:
- text: "Un homme, qui parle à son collègue, <s'> avance vers moi."
---
# Easter-Island/coref_classifier_ancor
## Table of Contents
- [Model Details](#model-details)
- [Uses](#uses)
- [Risks, Limitations and Biases](#risks-limitations-and-biases)
- [Training](#training)
- [Evaluation](#evaluation)
- [Citation Information](#citation-information)
- [How to Get Started With the Model](#how-to-get-started-with-the-model)
- ## Model Details
- **Model Description:**
This model is a state-of-the-art language model for French coreference resolution.
- **Developed by:** Grégory Guichard
- **Model Type:** Token Classification
- **Language(s):** French
- **License:** MIT
- **Parent Model:** See the [Camembert-large model](https://huggingface.co/camembert/camembert-large) for more information about the RoBERTa base model.
- **Resources for more information:**
## Uses
This model can be used for Coreference token classification tasks.
The model evaluates, for each token, if it is a reference of the expression between "<>".
### Example
```python
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)
text = "Un homme me parle. <Il> est beau."
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Un', '▁homme']
```
This coreference resolver can perform many tasks
### Reprise pronominale
```python
from transformers import AutoModelForTokenClassification, AutoTokenizer
model = AutoModelForTokenClassification.from_pretrained("models/merged/ancor_classifier")
tokenizer = AutoTokenizer.from_pretrained("models/merged/ancor_classifier_tokenizer")
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)
text = "Platon est un philosophe antique de la Grèce classique... Il reprit le travail philosophique decertains de <ses> prédécesseurs"
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Platon']
text = "Platon est un philosophe antique de la Grèce classique... <Il> reprit le travail philosophique decertains de ses prédécesseurs"
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Platon', '▁un', '▁philosophe', '▁antique', '▁de','▁la', '▁Grèce', '▁classique', '▁ses']
```
### Anaphores fidèles
```python
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)
text = "Le chat que j’ai adopté court partout... Mais j’aime beaucoup <ce chat> ."
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Le', '▁chat']
```
### Anaphores infidèles
```python
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)
text = "Le chat que j’ai adopté court partout... Mais j’aime beaucoup <cet animal> ."
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Le', '▁chat']
```
### Paroles rapportées
```python
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)
text = """Lionel Jospin se livre en revanche à une longue analyse de son échec du 21 avril. “Ma part de responsabilité dans l’échec existe forcément. <Je> l’ai assumée en quittant la vie politique”"""
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Lionel', '▁Jos', 'pin', '▁son', 'Ma']
```
### Entités nommées
```python
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)
text = "Paris est située sur la Seine. <La plus grande ville de France> compte plus de 10 millions d’habitants."
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Paris']
```
### Les groupes
```python
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)
text = "Jack et Rose commencent à faire connaissance. Ils s’entendent bien. <Le couple> se marie et a des enfants."
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Jack', '▁et', '▁Rose', '▁Ils']
```
### Groupes dispersés
```python
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)
text = "Pierre retrouva sa femme au restaurant. <Le couple> dina jusqu'à tard dans la nuit."
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁sa', '▁femme'] # ici il y a une erreur, on devrait avoir "Pierre" également
```
## Risks, Limitations and Biases
## Training
#### Training Data
#### Training Procedure
## Evaluation
## Citation Information
## How to Get Started With the Model
|