File size: 6,476 Bytes
5b04aaf
 
539ef01
5b04aaf
 
 
539ef01
 
 
 
 
 
 
 
5b04aaf
 
 
 
 
539ef01
 
 
 
 
 
 
 
 
 
 
c8de1dd
 
 
 
 
 
 
 
 
5b04aaf
 
539ef01
5b04aaf
539ef01
5b04aaf
714ed93
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
539ef01
c8de1dd
5b04aaf
 
 
4f20851
 
 
 
 
 
 
 
 
 
5b04aaf
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
539ef01
 
 
 
5b04aaf
 
 
 
 
 
 
539ef01
 
 
 
 
 
 
dd90093
539ef01
0d1959e
539ef01
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
---
library_name: transformers
license: apache-2.0
base_model: intfloat/multilingual-e5-base
tags:
- generated_from_trainer
- sentence-transformers
- text-classification
- feature-extraction
- generated_from_trainer
- legal
- taxation
- fiscalité
- tax
metrics:
- accuracy
model-index:
- name: lemone-router
  results: []
language:
- fr
pipeline_tag: text-classification
datasets:
- louisbrulenaudet/code-impots
- louisbrulenaudet/code-impots-annexe-iv
- louisbrulenaudet/code-impots-annexe-iii
- louisbrulenaudet/code-impots-annexe-i
- louisbrulenaudet/code-impots-annexe-ii
- louisbrulenaudet/livre-procedures-fiscales
- louisbrulenaudet/bofip
widget:
- text: "Quelles sont les modalités d'adoption d'un plan d'apurement échelonné par la commission chargée du recouvrement, et quelles sont les conditions qui s'imposent aux administrations et organismes chargés du recouvrement ainsi qu'au débiteur qui s'engage à le respecter ?"
  example_title: "Contrôle et contentieux"
- text: "Quel régime fiscal est applicable aux opérations de crédit-bail portant sur des fonds de commerce, des fonds artisanaux, ou l'un de leurs éléments incorporels non amortissables, et quelles sont les conditions dans lesquelles les sommes correspondant à la quote-part de loyer ne constituent pas un élément du bénéfice imposable du bailleur et ne sont pas déductibles pour la détermination des résultats imposables du locataire ?"
  example_title: "Bénéfices professionnels"
- text: "La succession s'ouvre par le décès dude cujus(code civil, art. 720). C'est donc le décès qui constitue le fait générateur de l'impôt. Dès lors, le tarif du droit et les règles applicables à sa liquidation sont celles en vigueur au jour du décès (en ce sens, Cass. com 7 janvier 1997 n° de pourvoi 95-11686). Toutefois, pour les legs sous condition suspensive (BOI-ENR-DMTG-10-10-10-10), les droits sont dus lors de la réalisation de la condition, d'après le régime fiscal applicable et la valeur des biens à cette époque (code général des impôts (CGI), art 676). Par ailleurs, pour les pénalités éventuellement exigibles, la loi applicable est celle en vigueur lors de la contravention. L'administration prouve le décès, en vue de la réclamation des droits, au moyen des registres de l'état civil dont les maires sont tenus de lui remettre un relevé trimestriel (LPF, art. L. 102 A). Elle peut aussi prouver la mutation par décès au moyen des présomptions légales de l'article 1881 du CGI et de l'article 1882 du CGI. Dans ce cas le fait générateur se place à la date à partir de laquelle la prise de possession est établie."
  example_title: "Patrimoine et enregistrement"
- text: "Quelles sont les obligations déclaratives que les associés personnes physiques doivent respecter pour bénéficier de la réduction d'impôt accordée au titre des dépenses de restauration immobilière effectuées dans les sites patrimoniaux remarquables et les quartiers relevant de la politique de la ville, et quelles sont les pièces justificatives qui doivent être jointes à leur déclaration des revenus ?"
  example_title: "Revenus particuliers"
---

<img src="assets/thumbnail.webp">

# Lemone-Router: A Series of Fine-Tuned Classification Models for French Taxation

Lemone-router is a series of classification models designed to produce an optimal multi-agent system for different branches of tax law. Trained on a base of 49k lines comprising a set of synthetic questions generated by GPT-4 Turbo and Llama 3.1 70B, which have been further refined through evol-instruction tuning and manual curation and authority documents, these models are based on an 8-category decomposition of the classification scheme derived from the Bulletin officiel des finances publiques - impôts :

```python3
label2id = {
    "Bénéfices professionnels": 0,
    "Contrôle et contentieux": 1,
    "Dispositifs transversaux": 2,
    "Fiscalité des entreprises": 3,
    "Patrimoine et enregistrement": 4,
    "Revenus particuliers": 5,
    "Revenus patrimoniaux": 6,
    "Taxes sur la consommation": 7
}
	
id2label = {
    0: "Bénéfices professionnels",
    1: "Contrôle et contentieux",
    2: "Dispositifs transversaux",
    3: "Fiscalité des entreprises",
    4: "Patrimoine et enregistrement",
    5: "Revenus particuliers",
    6: "Revenus patrimoniaux",
    7: "Taxes sur la consommation"
}
```

This model is a fine-tuned version of [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base).
It achieves the following results on the evaluation set of 5000 texts:
- Loss: 0.4096
- Accuracy: 0.9265

### Usage

```python
# Load model directly
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("louisbrulenaudet/lemone-router-m")
model = AutoModelForSequenceClassification.from_pretrained("louisbrulenaudet/lemone-router-m")
```

### Training hyperparameters

The following hyperparameters were used during training:
- learning_rate: 4.099463734610582e-05
- train_batch_size: 16
- eval_batch_size: 64
- seed: 23
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- lr_scheduler_warmup_ratio: 0.1
- num_epochs: 5

### Training results

| Training Loss | Epoch | Step  | Validation Loss | Accuracy |
|:-------------:|:-----:|:-----:|:---------------:|:--------:|
| 0.5371        | 1.0   | 2809  | 0.4147          | 0.8680   |
| 0.3154        | 2.0   | 5618  | 0.3470          | 0.8914   |
| 0.2241        | 3.0   | 8427  | 0.3345          | 0.9147   |
| 0.1273        | 4.0   | 11236 | 0.3788          | 0.9187   |
| 0.0525        | 5.0   | 14045 | 0.4096          | 0.9265   |

### Training Hardware
- **On Cloud**: No
- **GPU Model**: 1 x NVIDIA H100 NVL
- **CPU Model**: AMD EPYC 9V84 96-Core Processor

### Framework versions

- Transformers 4.45.2
- Pytorch 2.4.1+cu121
- Datasets 2.21.0
- Tokenizers 0.20.1

## Citation
If you use this code in your research, please use the following BibTeX entry.

```BibTeX
@misc{louisbrulenaudet2024,
  author =       {Louis Brulé Naudet},
  title =        {Lemone-Router: A Series of Fine-Tuned Classification Models for French Taxation},
  year =         {2024}
  howpublished = {\url{https://huggingface.co/datasets/louisbrulenaudet/lemone-router-m}},
}
```

## Feedback

If you have any feedback, please reach out at [louisbrulenaudet@icloud.com](mailto:louisbrulenaudet@icloud.com).