File size: 4,868 Bytes
421f98c
 
 
 
 
 
f1c8176
917720e
56f298c
 
ca07693
56f298c
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4a49aa6
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
56f298c
2f0edd7
4a49aa6
 
2f0edd7
4a49aa6
56f298c
 
 
 
 
 
 
 
 
 
 
 
 
fdfbda2
56f298c
 
 
fdfbda2
56f298c
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
---
datasets:
- gguichard/coref_dataset
language:
- fr
library_name: transformers
widget:
- text: "Un homme, qui parle à son collègue, <s'> avance vers moi."
---

# Easter-Island/coref_classifier_ancor

## Table of Contents
- [Model Details](#model-details)
- [Uses](#uses)
- [Risks, Limitations and Biases](#risks-limitations-and-biases)
- [Training](#training)
- [Evaluation](#evaluation)
- [Citation Information](#citation-information)
- [How to Get Started With the Model](#how-to-get-started-with-the-model)

- ## Model Details
- **Model Description:**
This model is a state-of-the-art language model for French coreference resolution.
- **Developed by:** Grégory Guichard
- **Model Type:** Token Classification
- **Language(s):** French
- **License:** MIT
- **Parent Model:** See the [Camembert-large model](https://huggingface.co/camembert/camembert-large) for more information about the RoBERTa   base model.
- **Resources for more information:**

  
## Uses

This model can be used for Coreference token classification tasks.
The model evaluates, for each token, if it is a reference of the expression between "<>".

### Example

```python
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)

text = "Un homme me parle. <Il> est beau."
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Un', '▁homme']
```

This coreference resolver can perform many tasks

### Reprise pronominale
```python
from transformers import AutoModelForTokenClassification, AutoTokenizer

model = AutoModelForTokenClassification.from_pretrained("models/merged/ancor_classifier")
tokenizer = AutoTokenizer.from_pretrained("models/merged/ancor_classifier_tokenizer")
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)

text = "Platon est un philosophe antique de la Grèce classique... Il reprit le travail philosophique decertains de <ses> prédécesseurs"
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Platon']

text = "Platon est un philosophe antique de la Grèce classique... <Il> reprit le travail philosophique decertains de ses prédécesseurs"
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Platon', '▁un', '▁philosophe', '▁antique', '▁de','▁la', '▁Grèce', '▁classique', '▁ses']

```

### Anaphores fidèles
```python
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)

text = "Le chat que j’ai adopté court partout... Mais j’aime beaucoup <ce chat> ."
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Le', '▁chat']
```

### Anaphores infidèles
```python
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)

text = "Le chat que j’ai adopté court partout... Mais j’aime beaucoup <cet animal> ."
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Le', '▁chat']
```

### Paroles rapportées
```python
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)

text = """Lionel Jospin se livre en revanche à une longue analyse de son échec du 21 avril. “Ma part de responsabilité dans l’échec existe forcément. <Je> l’ai assumée en quittant la vie politique”"""
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Lionel', '▁Jos', 'pin', '▁son', 'Ma']
```

### Entités nommées
```python
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)

text = "Paris est située sur la Seine. <La plus grande ville de France> compte plus de 10 millions d’habitants."
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Paris']
```
### Les groupes
```python
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)

text = "Jack et Rose commencent à faire connaissance. Ils s’entendent bien. <Le couple> se marie et a des enfants."
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁Jack', '▁et', '▁Rose', '▁Ils']
```

### Groupes dispersés
```python
from transformers import pipeline
classifier = pipeline("ner", model=model, tokenizer=tokenizer)

text = "Pierre retrouva sa femme au restaurant. <Le couple> dina jusqu'à tard dans la nuit."
[elem['word'] for elem in classifier(text) if elem['entity'] == 'LABEL_1']
# results
['▁sa', '▁femme']  # ici il y a une erreur, on devrait avoir "Pierre" également
```


## Risks, Limitations and Biases



## Training


#### Training Data



#### Training Procedure



## Evaluation



## Citation Information


## How to Get Started With the Model