|
--- |
|
language: de |
|
license: cc-by-4.0 |
|
tags: |
|
- named-entity-recognition |
|
- legal |
|
- ner |
|
datasets: |
|
- elenanereiss/german-ler |
|
metrics: |
|
- precision |
|
- recall |
|
- f1 |
|
pipeline_tag: token-classification |
|
widget: |
|
- text: Der aus Afghanistan stammende Angeklagte war am 11. November 2007 in einen |
|
Streit mit seinem Landsmann P. um die Nutzung eines Fahrzeugstellplatzes geraten |
|
- text: Der Angeklagte hatte seinen Sohn Y. S., einen Boxsportler, sowie seinen Bruder |
|
A. S., der stark sehbehindert und kriegsversehrt war, zum Tatort mitgebracht. |
|
- text: Das Ablehnungsgesuch der Beschuldigten vom 1. April 2018 gegen die Vorsitzende |
|
Richterin am Bundesgerichtshof Sost-Scheible, die Richterin am Bundesgerichtshof |
|
Roggenbuck und die Richter am Bundesgerichtshof Cierniak, Bender und Dr. Feilcke |
|
wird als unzulässig verworfen. |
|
- text: Die Freie und Hansestadt Hamburg hat der Beschwerdeführerin ihre notwendigen |
|
Auslagen zu erstatten. |
|
- text: Zu der Verfassungsbeschwerde haben das Bundesministerium für Ernährung und |
|
Landwirtschaft, der Bayerische Jagdverband, der Naturschutzbund Deutschland e.V. |
|
(NABU), der Deutsche Bauernverband, die Arbeitsgemeinschaft Deutscher Waldbesitzerverbände |
|
e.V., der Deutsche Jagdverband e.V. sowie die Bundesarbeitsgemeinschaft der Jagdgenossenschaften |
|
und Eigenjagdbesitzer Stellung genommen. |
|
- text: Auf die Revisionen des Angeklagten und der Staatsanwaltschaft wird das Urteil |
|
des Landgerichts Fulda vom 30. Mai 2017 im Ausspruch über die Gesamtstrafe aufgehoben. |
|
- text: 'Im Tatzeitraum vom 19. Mai 2010 bis zum 21. Dezember 2011 lieferte die V. |
|
Fleisch GmbH & Co. KG (im Folgenden: Firma V.) Fleischprodukte, unter anderem |
|
Schweinerückenspeck, an das in der Ukraine ansässige Unternehmen VAT „M.Y.“ (fortan: |
|
Firma Y.).' |
|
- text: § 14 Absatz 2 Satz 2 des Gesetzes über Teilzeitarbeit und befristete Arbeitsverträge |
|
(TzBfG) vom 21. Dezember 2000 (Bundesgesetzblatt I Seite 1966), zuletzt geändert |
|
durch Gesetz vom 20. Dezember 2011 (Bundesgesetzblatt I Seite 2854), ist nach |
|
Maßgabe der Gründe mit dem Grundgesetz vereinbar. |
|
- text: Auf das Arbeitsverhältnis der Parteien fand der Manteltarifvertrag für die |
|
Beschäftigten der Mitglieder der TGAOK (BAT/AOK-Neu) vom 7. August 2003 Anwendung. |
|
- text: Besteht - wie hier - eine Diskrepanz, muss dem Gesetzeswortlaut, dem Regelungssystem |
|
und dem Regelungsziel der Vorrang zukommen (stRspr; vgl zB BVerfGE 62, 1, 45; |
|
BVerfGE 119, 96, 179; BSG SozR 4 - 2500 § 62 Nr 8 RdNr 20 f; Hauck/Wiegand, KrV |
|
2016, 1, 4). |
|
- text: Herr W. verstieß gegen § 36 Abs. 7 IfSG. |
|
base_model: bert-base-german-cased |
|
model-index: |
|
- name: elenanereiss/bert-german-ler |
|
results: |
|
- task: |
|
type: token-classification |
|
name: Token Classification |
|
dataset: |
|
name: elenanereiss/german-ler |
|
type: elenanereiss/german-ler |
|
args: elenanereiss/german-ler |
|
metrics: |
|
- type: f1 |
|
value: 0.9546215361725869 |
|
name: F1 |
|
- type: precision |
|
value: 0.9449558173784978 |
|
name: Precision |
|
- type: recall |
|
value: 0.9644870349492672 |
|
name: Recall |
|
--- |
|
|
|
|
|
# bert-german-ler |
|
|
|
## Model description |
|
|
|
This model is a fine-tuned version of [bert-base-german-cased](https://huggingface.co/bert-base-german-cased) on the |
|
[German LER Dataset](https://huggingface.co/datasets/elenanereiss/german-ler). |
|
|
|
Distribution of classes in the dataset: |
|
| | | **Fine-grained classes** | **#** | **%** | |
|
|----|---------|--------------------------|------------|---------| |
|
| 1 | **PER** | _Person_ | 1,747 | 3.26 | |
|
| 2 | **RR** | _Judge_ | 1,519 | 2.83 | |
|
| 3 | **AN** | _Lawyer_ | 111 | 0.21 | |
|
| 4 | **LD** | _Country_ | 1,429 | 2.66 | |
|
| 5 | **ST** | _City_ | 705 | 1.31 | |
|
| 6 | **STR** | _Street_ | 136 | 0.25 | |
|
| 7 | **LDS** | _Landscape_ | 198 | 0.37 | |
|
| 8 | **ORG** | _Organization_ | 1,166 | 2.17 | |
|
| 9 | **UN** | _Company_ | 1,058 | 1.97 | |
|
| 10 | **INN** | _Institution_ | 2,196 | 4.09 | |
|
| 11 | **GRT** | _Court_ | 3,212 | 5.99 | |
|
| 12 | **MRK** | _Brand_ | 283 | 0.53 | |
|
| 13 | **GS** | _Law_ | 18,52 | 34.53 | |
|
| 14 | **VO** | _Ordinance_ | 797 | 1.49 | |
|
| 15 | **EUN** | _European legal norm_ | 1,499 | 2.79 | |
|
| 16 | **VS** | _Regulation_ | 607 | 1.13 | |
|
| 17 | **VT** | _Contract_ | 2,863 | 5.34 | |
|
| 18 | **RS** | _Court decision_ | 12,58 | 23.46 | |
|
| 19 | **LIT** | _Legal literature_ | 3,006 | 5.60 | |
|
| | | **Total** | **53,632** | **100** | |
|
|
|
How to fine-tune another model on the German LER Dataset, see [GitHub](https://github.com/elenanereiss/bert-legal-ner). |
|
|
|
## Training procedure |
|
|
|
### Training hyperparameters |
|
|
|
The following hyperparameters were used during training: |
|
- learning_rate: 1e-05 |
|
- train_batch_size: 12 |
|
- eval_batch_size: 16 |
|
- max_seq_length: 512 |
|
- num_epochs: 3 |
|
|
|
## Results |
|
|
|
## Results on the dev set: |
|
|
|
``` |
|
precision recall f1-score support |
|
|
|
AN 0.75 0.50 0.60 12 |
|
EUN 0.92 0.93 0.92 116 |
|
GRT 0.95 0.99 0.97 331 |
|
GS 0.98 0.98 0.98 1720 |
|
INN 0.84 0.91 0.88 199 |
|
LD 0.95 0.95 0.95 109 |
|
LDS 0.82 0.43 0.56 21 |
|
LIT 0.88 0.92 0.90 231 |
|
MRK 0.50 0.70 0.58 23 |
|
ORG 0.64 0.71 0.67 103 |
|
PER 0.86 0.93 0.90 186 |
|
RR 0.97 0.98 0.97 144 |
|
RS 0.94 0.95 0.94 1126 |
|
ST 0.91 0.88 0.89 58 |
|
STR 0.29 0.29 0.29 7 |
|
UN 0.81 0.85 0.83 143 |
|
VO 0.76 0.95 0.84 37 |
|
VS 0.62 0.80 0.70 56 |
|
VT 0.87 0.92 0.90 275 |
|
|
|
micro avg 0.92 0.94 0.93 4897 |
|
macro avg 0.80 0.82 0.80 4897 |
|
weighted avg 0.92 0.94 0.93 4897 |
|
``` |
|
|
|
## Results on the test set: |
|
|
|
``` |
|
precision recall f1-score support |
|
|
|
AN 1.00 0.89 0.94 9 |
|
EUN 0.90 0.97 0.93 150 |
|
GRT 0.98 0.98 0.98 321 |
|
GS 0.98 0.99 0.98 1818 |
|
INN 0.90 0.95 0.92 222 |
|
LD 0.97 0.92 0.94 149 |
|
LDS 0.91 0.45 0.61 22 |
|
LIT 0.92 0.96 0.94 314 |
|
MRK 0.78 0.88 0.82 32 |
|
ORG 0.82 0.88 0.85 113 |
|
PER 0.92 0.88 0.90 173 |
|
RR 0.95 0.99 0.97 142 |
|
RS 0.97 0.98 0.97 1245 |
|
ST 0.79 0.86 0.82 64 |
|
STR 0.75 0.80 0.77 15 |
|
UN 0.90 0.95 0.93 108 |
|
VO 0.80 0.83 0.81 71 |
|
VS 0.73 0.84 0.78 64 |
|
VT 0.93 0.97 0.95 290 |
|
|
|
micro avg 0.94 0.96 0.95 5322 |
|
macro avg 0.89 0.89 0.89 5322 |
|
weighted avg 0.95 0.96 0.95 5322 |
|
``` |
|
|
|
### Reference |
|
``` |
|
@misc{https://doi.org/10.48550/arxiv.2003.13016, |
|
doi = {10.48550/ARXIV.2003.13016}, |
|
url = {https://arxiv.org/abs/2003.13016}, |
|
author = {Leitner, Elena and Rehm, Georg and Moreno-Schneider, Julián}, |
|
keywords = {Computation and Language (cs.CL), Information Retrieval (cs.IR), FOS: Computer and information sciences, FOS: Computer and information sciences}, |
|
title = {A Dataset of German Legal Documents for Named Entity Recognition}, |
|
publisher = {arXiv}, |
|
year = {2020}, |
|
copyright = {arXiv.org perpetual, non-exclusive license} |
|
} |
|
|
|
``` |
|
|
|
|