Text Classification
Safetensors
Chinese
gpt2
hugfaceguy0001 commited on
Commit
6cc6947
·
verified ·
1 Parent(s): 20e0f0f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +35 -3
README.md CHANGED
@@ -1,3 +1,35 @@
1
- ---
2
- license: openrail
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: openrail
3
+ datasets:
4
+ - Skywork/SkyPile-150B
5
+ - wangrui6/Zhihu-KOL
6
+ - silk-road/alpaca-data-gpt4-chinese
7
+ language:
8
+ - zh
9
+ base_model: openai-community/gpt2
10
+ pipeline_tag: text-classification
11
+ tags:
12
+ - text-classification
13
+ ---
14
+
15
+ # AI文本检测器
16
+ 本模型是gpt2的微调模型,用于文本分类。
17
+
18
+ 本模型支持三个类别:AI,zhihu,other. 它们分别表示AI生成的文本,知乎用户回答文本和其他文本。
19
+
20
+ ## 训练数据
21
+
22
+ 使用 `alpaca-data-gpt4-chinese` 中的约52000条回答文本作为AI生成文本,`Zhihu-KOL` 中随机选择的约52000条回答文本作为知乎用户回答文本,`SkyPile-150B` 中随机选择的约52000条文本作为其他文本。
23
+
24
+ 共约15.6万条分类文本,组成数据集,其中80%用于训练,20%用于测试。
25
+
26
+ ## 性能
27
+
28
+ 分类准确率 `accuracy = 0.9802627363024672`.
29
+
30
+ 各样本真实标签和检测结果组成的混淆矩阵为
31
+ | | AI | zhihu | other |
32
+ |:-----:|:-----:|:-----:|:-----:|
33
+ | AI | 10325 | 326 | 18 |
34
+ | zhihu | 143 | 9969 | 87 |
35
+ | other | 0 | 42 | 10300 |