Qi Wang commited on
Commit
983603d
·
1 Parent(s): 0b1ba65

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +10 -10
README.md CHANGED
@@ -8,7 +8,7 @@ pipeline_tag: text2text-generation
8
 
9
  [English](./readme_en.md) [简体中文](./readme.md)
10
 
11
- 这是一个参数量58M左右的超微型小模型,采用Llama2架构,这里上传的版本是预训练版本,尚未进行SFT。近期将会推出SFT后的聊天版本。
12
 
13
  这个超微型模型开发的目标是:
14
 
@@ -28,10 +28,10 @@ pipeline_tag: text2text-generation
28
 
29
  训练参数:
30
 
31
- 1. 最长行(Max Sentence Length): 4096
32
- 2. 词汇量(Vocab Size): 65534
33
- 3. 正则化规则(Normalization Rule): nfkc
34
- 4. 覆盖率(Character coverage): 0.99
35
 
36
  和标准的Llama2分词器比较如下:
37
 
@@ -56,11 +56,11 @@ Llama2分词器是32000个token,针对英文字符进行了优化;而Baby LL
56
 
57
  在单卡3090机器上进行预训练,模型model采用了llama2的架构,训练参数如下:
58
 
59
- 1. max_seq_len = 512
60
- 2. dim = 512
61
- 3. n_headers = 8
62
- 4. n_layers = 8
63
- 5. n_kv_headers = 8
64
 
65
  ## 演示
66
 
 
8
 
9
  [English](./readme_en.md) [简体中文](./readme.md)
10
 
11
+ 这是一个参数量115M左右的超微型小模型,采用Llama2架构,这里上传的版本是预训练版本,尚未进行SFT。近期将会推出SFT后的聊天版本。
12
 
13
  这个超微型模型开发的目标是:
14
 
 
28
 
29
  训练参数:
30
 
31
+ 1. 最长行(Max Sentence Length): 2657
32
+ 2. 词汇量(Vocab Size): 32000
33
+ 3. 正则化规则(Normalization Rule): identity
34
+ 4. 覆盖率(Character coverage): 0.9995
35
 
36
  和标准的Llama2分词器比较如下:
37
 
 
56
 
57
  在单卡3090机器上进行预训练,模型model采用了llama2的架构,训练参数如下:
58
 
59
+ 1. max_seq_len = 1024
60
+ 2. dim = 768
61
+ 3. n_headers = 12
62
+ 4. n_layers = 12
63
+ 5. n_kv_headers = 12
64
 
65
  ## 演示
66