File size: 4,343 Bytes
e8d974b
 
 
 
b8b5b9f
e8d974b
2e10707
8aaa1b1
2e10707
 
 
 
bf95285
2e10707
 
 
 
 
 
3257358
2e10707
 
 
e8d974b
d06a894
e8d974b
2e10707
e8d974b
2e10707
b8b5b9f
2e10707
 
468b224
 
 
 
2e10707
 
 
468b224
 
 
 
 
 
 
 
 
 
439d41e
 
2e10707
439d41e
2e10707
 
 
 
 
 
439d41e
2e10707
439d41e
2e10707
 
 
439d41e
2e10707
 
 
 
b8b5b9f
2e10707
b8b5b9f
2e10707
 
 
439d41e
2e10707
 
c281166
439d41e
d06a894
4f7320b
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
import gradio as gr
import pandas as pd

csv_filename = 'leaderboard.csv'
# url = 'https://docs.google.com/spreadsheets/d/1Oh3nrbdWjKuh9twJsc9yJLppiJeD_BZyKgCTOxRkALM/export?format=csv'

def get_data_classifica():
    dataset = pd.read_csv("leaderboard_general.csv", sep=',')
    if 'model ' in dataset.columns:
        dataset.rename(columns={'model ': 'model'}, inplace=True)
    df_classifica = dataset[['model', 'helloswag_it acc norm', 'arc_it acc norm', 'm_mmul acc shot 5']]
    df_classifica['media'] = df_classifica[['helloswag_it acc norm', 'arc_it acc norm', 'm_mmul acc shot 5']].mean(axis=1)
    df_classifica['media'] = df_classifica['media'].round(3) 
    df_classifica = df_classifica.sort_values(by='media', ascending=False) 
    df_classifica = df_classifica[['model', 'media', 'helloswag_it acc norm', 'arc_it acc norm', 'm_mmul acc shot 5']]

    return df_classifica

def get_data_totale():
    dataset = pd.read_csv("leaderboard_general.csv", sep=',')
    if 'model ' in dataset.columns:
        dataset.rename(columns={'model ': 'model'}, inplace=True)
    return dataset

with gr.Blocks() as demo:

        with gr.Tab('Classifica Generale'):

            gr.Markdown('''# Classifica generale degli LLM italiani''')
            discord_link = 'https://discord.gg/m7sS3mduY2'
            gr.Markdown('''
            I modelli sottostanti sono stati testati con [lm_evaluation_harness](https://github.com/EleutherAI/lm-evaluation-harness) su task specifici per l'italiano introdotti con questa [PR](https://github.com/EleutherAI/lm-evaluation-harness/pull/1358).
            L'intero progetto, i modelli e i dataset sono rigorosamente open source e tutti i risultati sono riproducibili lanciando dei comandi come questo:         
                ```
                   lm_eval --model hf --model_args pretrained=HUGGINGFACE_MODEL_ID  --tasks xcopa_it,hellaswag_it,lambada_openai_mt_it,belebele_ita_Latn,arc_it  --device cuda:0 --batch_size 8 
                ```
            ''')
            gr.DataFrame(get_data_classifica, every=3600)            
            gr.Markdown(f"Contributore principale: @giux78")
            gr.Markdown('''
            ### Reference on Italian task from mixtral paper

            | Model | Arc-c  | HellaS | MMUL | AVG |
            | --- | --- | --- | --- | --- |
            | Mixtral 7x8 | 52.8 | 75.1 | 70.9 | 66.26666667 |
            | LLama2 70b | 49.4 | 70.9 | 65.1 | 61.8 |
            | LLama1 34B | 42.9 | 65.4 | 49.0 | 52.43333333 |
            | Mistral 7B | 41.49 | 61.22 | 52.53 | 51.74 |            
            ''')


        with gr.Tab('Classifica RAG'):

            gr.Markdown('''# Classifica RAG degli LLM italiani''')
            gr.Markdown(f'''In questa sezione i modelli sono valutati su dei task di Q&A e ordinati per F1 Score e EM (Exact Match). La repo di riferimento è [questa](https://github.com/C080/open-llm-ita-leaderboard).
                        I modelli in cima alla classifica sono ritenuti preferibili per i task di Retrieval Augmented Generation.''')
            gr.Dataframe(pd.read_csv(csv_filename, sep=';'))
            gr.Markdown(f"Si ringrazia il @galatolo per il codice dell'eval.")
            

        with gr.Tab('Eval aggiuntive'):

            gr.Markdown('''# Altre evaluation''')
            gr.Markdown('''Qui ci sono altri test di altri modelli, che non sono ancora stati integrati nella classifica generale.''')
            gr.DataFrame(get_data_totale, every=3600) 

        with gr.Tab('Informazioni'):
            
            form_link = "https://forms.gle/Gc9Dfu52xSBhQPpAA"
            gr.Markdown('''# Community discord
            Se vuoi contribuire al progetto o semplicemente unirti alla community di LLM italiani unisciti al nostro [discord!](https://discord.gg/m7sS3mduY2)
            # Aggiungi il tuo modello
            Se hai sviluppato un tuo modello che vuoi far valutare, compila il form [qui](https://forms.gle/Gc9Dfu52xSBhQPpAA) è tutto gratuito!         
            ''') 
        
        with gr.Tab('Sponsor'):

            gr.Markdown('''
            # Sponsor
            Le evaluation della classifica generale sono state gentilmente offerte da un provider cloud italiano [seeweb.it](https://www.seeweb.it/) specializzato in servizi di GPU cloud e AI.
            ''')
            
demo.launch()