Spaces:
Running
on
CPU Upgrade
Running
on
CPU Upgrade
FinancialSupport
commited on
Commit
•
439d41e
1
Parent(s):
d06a894
Update app.py
Browse files
app.py
CHANGED
@@ -12,11 +12,28 @@ with gr.Blocks() as demo:
|
|
12 |
|
13 |
gr.Markdown("# Classifica degli LLM italiani")
|
14 |
form_link = "https://forms.gle/Gc9Dfu52xSBhQPpAA"
|
15 |
-
gr.Markdown(f"I modelli sono testati su SQuAD-it e ordinati per F1 Score e EM (Exact Match).Si ringrazia il @galatolo per il codice dell'eval. Se volete aggiungere il vostro modello compilate il form {form_link}")
|
16 |
gr.Dataframe(pd.read_csv(csv_filename, sep=';'))
|
17 |
|
18 |
-
|
19 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
20 |
discord_link = 'https://discord.com/invite/nfgaTG3H'
|
21 |
gr.Markdown(f"@giux78 sta lavorando sull'integrazione di nuovi dataset di benchmark italiani. Se volete contribuire anche voi unitevi al discord della community {discord_link}")
|
22 |
gr.DataFrame(get_data, every=3600)
|
|
|
12 |
|
13 |
gr.Markdown("# Classifica degli LLM italiani")
|
14 |
form_link = "https://forms.gle/Gc9Dfu52xSBhQPpAA"
|
15 |
+
gr.Markdown(f"Nella tabella la classifica dei risultati ottenuti confrontando alcuni modelli LLM italiani utilizzando questa [repo github](https://github.com/C080/open-llm-ita-leaderboard) da me mantenuta. I modelli sono testati su SQuAD-it e ordinati per F1 Score e EM (Exact Match). Si ringrazia il @galatolo per il codice dell'eval. Se volete aggiungere il vostro modello compilate il form {form_link}.")
|
16 |
gr.Dataframe(pd.read_csv(csv_filename, sep=';'))
|
17 |
|
18 |
+
gr.Markdown('''# Community discord
|
19 |
+
Se volete contribuire o semplicemente partecipare unitevi al nostro [discord](https://discord.com/invite/nfgaTG3H) per rimanere aggiornati su LLM in lingua italiana.
|
20 |
+
|
21 |
+
# Sponsor
|
22 |
+
Le evaluation sono state sponsorizzate da un provider cloud italano [seeweb.it](https://www.seeweb.it/) molto attento al mondo dell'AI e con un ottima offerta di GPUs ed esperienza di sviluppo.
|
23 |
+
|
24 |
+
|
25 |
+
# NON è una classifica ma una evaluation
|
26 |
+
|
27 |
+
In questa tabella una serie di evaluations create con [lm_evaluation_harness](https://github.com/EleutherAI/lm-evaluation-harness) e sponsorizzate da un cloud provider italiano [seeweb](https://www.seeweb.it/) su tasks appositi per l'italiano. Abbiamo anche contribuito con questa [PR](https://github.com/EleutherAI/lm-evaluation-harness/pull/1358) in attesa di essere mergiata aggiungendo il task per multilingual mmul e contiamo di migliorare gli eval sull'italiano con altre PR.
|
28 |
+
|
29 |
+
Dopo aver installato [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) per generare i risultati i comandi:
|
30 |
+
|
31 |
+
lm_eval --model hf --model_args pretrained=HUGGINGFACE_MODEL_ID --tasks xcopa_it,hellaswag_it,lambada_openai_mt_it,belebele_ita_Latn,m_mmlu_it --device cuda:0 --batch_size 8
|
32 |
+
|
33 |
+
oppure per few shot 3
|
34 |
+
|
35 |
+
lm_eval --model hf --model_args pretrained=HUGGINGFACE_MODEL_ID --tasks m_mmlu_it --num_fewshot 3 --device cuda:0 --batch_size 8
|
36 |
+
''')
|
37 |
discord_link = 'https://discord.com/invite/nfgaTG3H'
|
38 |
gr.Markdown(f"@giux78 sta lavorando sull'integrazione di nuovi dataset di benchmark italiani. Se volete contribuire anche voi unitevi al discord della community {discord_link}")
|
39 |
gr.DataFrame(get_data, every=3600)
|