FinancialSupport commited on
Commit
439d41e
1 Parent(s): d06a894

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +20 -3
app.py CHANGED
@@ -12,11 +12,28 @@ with gr.Blocks() as demo:
12
 
13
  gr.Markdown("# Classifica degli LLM italiani")
14
  form_link = "https://forms.gle/Gc9Dfu52xSBhQPpAA"
15
- gr.Markdown(f"I modelli sono testati su SQuAD-it e ordinati per F1 Score e EM (Exact Match).Si ringrazia il @galatolo per il codice dell'eval. Se volete aggiungere il vostro modello compilate il form {form_link}")
16
  gr.Dataframe(pd.read_csv(csv_filename, sep=';'))
17
 
18
- with gr.Tab('Test della community'):
19
- gr.Markdown("# Evaluation aggiuntive fatte dalla community")
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
20
  discord_link = 'https://discord.com/invite/nfgaTG3H'
21
  gr.Markdown(f"@giux78 sta lavorando sull'integrazione di nuovi dataset di benchmark italiani. Se volete contribuire anche voi unitevi al discord della community {discord_link}")
22
  gr.DataFrame(get_data, every=3600)
 
12
 
13
  gr.Markdown("# Classifica degli LLM italiani")
14
  form_link = "https://forms.gle/Gc9Dfu52xSBhQPpAA"
15
+ gr.Markdown(f"Nella tabella la classifica dei risultati ottenuti confrontando alcuni modelli LLM italiani utilizzando questa [repo github](https://github.com/C080/open-llm-ita-leaderboard) da me mantenuta. I modelli sono testati su SQuAD-it e ordinati per F1 Score e EM (Exact Match). Si ringrazia il @galatolo per il codice dell'eval. Se volete aggiungere il vostro modello compilate il form {form_link}.")
16
  gr.Dataframe(pd.read_csv(csv_filename, sep=';'))
17
 
18
+ gr.Markdown('''# Community discord
19
+ Se volete contribuire o semplicemente partecipare unitevi al nostro [discord](https://discord.com/invite/nfgaTG3H) per rimanere aggiornati su LLM in lingua italiana.
20
+
21
+ # Sponsor
22
+ Le evaluation sono state sponsorizzate da un provider cloud italano [seeweb.it](https://www.seeweb.it/) molto attento al mondo dell'AI e con un ottima offerta di GPUs ed esperienza di sviluppo.
23
+
24
+
25
+ # NON è una classifica ma una evaluation
26
+
27
+ In questa tabella una serie di evaluations create con [lm_evaluation_harness](https://github.com/EleutherAI/lm-evaluation-harness) e sponsorizzate da un cloud provider italiano [seeweb](https://www.seeweb.it/) su tasks appositi per l'italiano. Abbiamo anche contribuito con questa [PR](https://github.com/EleutherAI/lm-evaluation-harness/pull/1358) in attesa di essere mergiata aggiungendo il task per multilingual mmul e contiamo di migliorare gli eval sull'italiano con altre PR.
28
+
29
+ Dopo aver installato [lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) per generare i risultati i comandi:
30
+
31
+ lm_eval --model hf --model_args pretrained=HUGGINGFACE_MODEL_ID --tasks xcopa_it,hellaswag_it,lambada_openai_mt_it,belebele_ita_Latn,m_mmlu_it --device cuda:0 --batch_size 8
32
+
33
+ oppure per few shot 3
34
+
35
+ lm_eval --model hf --model_args pretrained=HUGGINGFACE_MODEL_ID --tasks m_mmlu_it --num_fewshot 3 --device cuda:0 --batch_size 8
36
+ ''')
37
  discord_link = 'https://discord.com/invite/nfgaTG3H'
38
  gr.Markdown(f"@giux78 sta lavorando sull'integrazione di nuovi dataset di benchmark italiani. Se volete contribuire anche voi unitevi al discord della community {discord_link}")
39
  gr.DataFrame(get_data, every=3600)