Add BERTopic model
Browse files- README.md +150 -0
- config.json +16 -0
- ctfidf.safetensors +3 -0
- ctfidf_config.json +0 -0
- topic_embeddings.safetensors +3 -0
- topics.json +0 -0
README.md
ADDED
@@ -0,0 +1,150 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
|
2 |
+
---
|
3 |
+
tags:
|
4 |
+
- bertopic
|
5 |
+
library_name: bertopic
|
6 |
+
pipeline_tag: text-classification
|
7 |
+
---
|
8 |
+
|
9 |
+
# bertopic_AG2023_cn_esports
|
10 |
+
|
11 |
+
This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
|
12 |
+
BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
|
13 |
+
|
14 |
+
## Usage
|
15 |
+
|
16 |
+
To use this model, please install BERTopic:
|
17 |
+
|
18 |
+
```
|
19 |
+
pip install -U bertopic
|
20 |
+
```
|
21 |
+
|
22 |
+
You can use the model as follows:
|
23 |
+
|
24 |
+
```python
|
25 |
+
from bertopic import BERTopic
|
26 |
+
topic_model = BERTopic.load("tyrealqian/bertopic_AG2023_cn_esports")
|
27 |
+
|
28 |
+
topic_model.get_topic_info()
|
29 |
+
```
|
30 |
+
|
31 |
+
## Topic overview
|
32 |
+
|
33 |
+
* Number of topics: 81
|
34 |
+
* Number of training documents: 51346
|
35 |
+
|
36 |
+
<details>
|
37 |
+
<summary>Click here for an overview of all topics.</summary>
|
38 |
+
|
39 |
+
| Topic ID | Topic Keywords | Topic Frequency | Label |
|
40 |
+
|----------|----------------|-----------------|-------|
|
41 |
+
| -1 | 亚运会 - 英雄 - 联盟 - 英雄 联盟 - 电竞 | 51 | -1_亚运会_英雄_联盟_英雄 联盟 |
|
42 |
+
| 0 | 一诺 - xbc - 一诺 xbc - 亚运会 加油 - 徐必成 | 21724 | 0_一诺_xbc_一诺 xbc_亚运会 加油 |
|
43 |
+
| 1 | 英雄 联盟 - 联盟 - 英雄 - 亚运会 英雄 - 亚运会 英雄 联盟 | 5539 | 1_英雄 联盟_联盟_英雄_亚运会 英雄 |
|
44 |
+
| 2 | 大使 - 推广 - 咕电 - 中国移动 - 健儿 加油 | 1843 | 2_大使_推广_咕电_中国移动 |
|
45 |
+
| 3 | 退出 - 退出 亚运会 - 退出 亚运会 名单 - jackeylove - 亚运会 名单 | 1544 | 3_退出_退出 亚运会_退出 亚运会 名单_jackeylove |
|
46 |
+
| 4 | ag - 超玩会 - ag 超玩会 - 一诺 - 愿望 | 1387 | 4_ag_超玩会_ag 超玩会_一诺 |
|
47 |
+
| 5 | 王者 - 王者 荣耀 - 王者 荣耀 亚运会 - 荣耀 - 荣耀 亚运会 | 1387 | 5_王者_王者 荣耀_王者 荣耀 亚运会_荣耀 |
|
48 |
+
| 6 | estar - 坦然 - 花海 - 上野 - es | 1245 | 6_estar_坦然_花海_上野 |
|
49 |
+
| 7 | iqoo - 用机 - 手机 - 官方 用机 - 官方 | 822 | 7_iqoo_用机_手机_官方 用机 |
|
50 |
+
| 8 | edg - lpl - uzi - rng - blg | 777 | 8_edg_lpl_uzi_rng |
|
51 |
+
| 9 | 中国 电竞 加油 - 一人 一句 - 一人 - 电竞 加油 亚运会 - 加油 亚运会 电竞 | 772 | 9_中国 电竞 加油_一人 一句_一人_电竞 加油 亚运会 |
|
52 |
+
| 10 | dota - 亚运会 dota - 中国队 - 中国队 夺冠 - 刀塔 | 701 | 10_dota_亚运会 dota_中国队_中国队 夺冠 |
|
53 |
+
| 11 | 火炬 - 伞兵 - 传递 - 火炬 传递 - 朱伯丞 | 696 | 11_火炬_伞兵_传递_火炬 传递 |
|
54 |
+
| 12 | 门票 - 销售 - 报名 - 电竞 门票 - 抽签 | 651 | 12_门票_销售_报名_电竞 门票 |
|
55 |
+
| 13 | 杭州 - 亚运 - 温州 - 场馆 - 中心 | 615 | 13_杭州_亚运_温州_场馆 |
|
56 |
+
| 14 | 和平 - 精英 - 和平 精英 - 精英 亚运 - 和平 精英 亚运 | 601 | 14_和平_精英_和平 精英_精英 亚运 |
|
57 |
+
| 15 | 杭州 亚运会 王者 - 王者 荣耀 项目 - 荣耀 项目 - 亚运会 王者 荣耀 - 亚运会 王者 | 554 | 15_杭州 亚运会 王者_王者 荣耀 项目_荣耀 项目_亚运会 王者 荣耀 |
|
58 |
+
| 16 | 花海 - 花花 - 思源 - 打野 - 带队 | 522 | 16_花海_花花_思源_打野 |
|
59 |
+
| 17 | pel - 电子竞技 - 亚运 - 项目 - 亚运 版本 | 455 | 17_pel_电子竞技_亚运_项目 |
|
60 |
+
| 18 | 杭州 亚运会 倒计时 - 亚运会 倒计时 - 祝福 亚运会 - 倒计时 - 祝福 | 451 | 18_杭州 亚运会 倒计时_亚运会 倒计时_祝福 亚运会_倒计时 |
|
61 |
+
| 19 | 无畏 - 狼队 - fly - 粉丝 - 九尾 | 414 | 19_无畏_狼队_fly_粉丝 |
|
62 |
+
| 20 | 传说 - 取消 - 设置 - 理事会 - 运营 | 400 | 20_传说_取消_设置_理事会 |
|
63 |
+
| 21 | 打野 - 亚运会 打野 - 中单 - 辅助 - 亚运会 中单 | 374 | 21_打野_亚运会 打野_中单_辅助 |
|
64 |
+
| 22 | 虚拟 - 现实 - 走向 - 首个 - 能否 | 364 | 22_虚拟_现实_走向_首个 |
|
65 |
+
| 23 | 认为 - 选手 - faker - 非常 - 监督 | 357 | 23_认为_选手_faker_非常 |
|
66 |
+
| 24 | 俱乐部 wb - 俱乐部 wb 王者 - 王者 荣耀 战队 - 荣耀 战队 - 微博 俱乐部 | 352 | 24_俱乐部 wb_俱乐部 wb 王者_王者 荣耀 战队_荣耀 战队 |
|
67 |
+
| 25 | kpl - kpl 亚运会 - 亚运会 kpl - 名单 - 清融 | 349 | 25_kpl_kpl 亚运会_亚运会 kpl_名单 |
|
68 |
+
| 26 | 公司 - 概念 - 科技 - u3000 - 市场 | 304 | 26_公司_概念_科技_u3000 |
|
69 |
+
| 27 | 快来 - 电竞 出征 - 电竞 出征 亚运 - 中国 电竞 出征 - 出征 亚运 | 281 | 27_快来_电竞 出征_电竞 出征 亚运_中国 电竞 出征 |
|
70 |
+
| 28 | 阿豆 - 五周年 - 登场 - 快乐 - kpl | 277 | 28_阿豆_五周年_登场_快乐 |
|
71 |
+
| 29 | 教练员 - 推荐 - 国家集训队 - 项目 国家集训队 - 运动员 | 267 | 29_教练员_推荐_国家集训队_项目 国家集训队 |
|
72 |
+
| 30 | 担任 亚运会 - 亚运会 ad - 担任 - ad - jackeylove | 245 | 30_担任 亚运会_亚运会 ad_担任_ad |
|
73 |
+
| 31 | 中国 电竞 - 热爱 - 点亮 - 中国 - 电竞 | 231 | 31_中国 电竞_热爱_点亮_中国 |
|
74 |
+
| 32 | 早安 - 健康 - 杭州 亚运会 官方 - 亚运会 官方 - 周年 | 215 | 32_早安_健康_杭州 亚运会 官方_亚运会 官方 |
|
75 |
+
| 33 | 狼队 - 王者 荣耀 - 王者 - 荣耀 - fly | 201 | 33_狼队_王者 荣耀_王者_荣耀 |
|
76 |
+
| 34 | ruler - kanavi - lck - 预选 - keria | 187 | 34_ruler_kanavi_lck_预选 |
|
77 |
+
| 35 | 抽签 - 门票 - 亚运会 电竞 项目 - 电竞 项目 - 亚运会 门票 | 187 | 35_抽签_门票_亚运会 电竞 项目_电竞 项目 |
|
78 |
+
| 36 | 产业 - 发展 - 电子竞技 - 游戏 - 电竞 | 174 | 36_产业_发展_电子竞技_游戏 |
|
79 |
+
| 37 | 亚运会 电竞 - 电竞 - 电竞 亚运会 - 加油 亚运会 - 亚运 荣耀 | 173 | 37_亚运会 电竞_电竞_电竞 亚运会_加油 亚运会 |
|
80 |
+
| 38 | bo - 抽签 - 决赛 - 赛程 - 小组赛 | 169 | 38_bo_抽签_决赛_赛程 |
|
81 |
+
| 39 | 拯救 - 风采 - 电脑 - 亚运 - 定制 | 151 | 39_拯救_风采_电脑_亚运 |
|
82 |
+
| 40 | kpl - 杂志 - 亚运会 kpl - 有没有 - 暖阳 亚运会 | 148 | 40_kpl_杂志_亚运会 kpl_有没有 |
|
83 |
+
| 41 | 三国 - moba - 游戏 - 玩家 - 一款 | 143 | 41_三国_moba_游戏_玩家 |
|
84 |
+
| 42 | 观赛 - 指南 - 收藏 - 亚运 健儿 加油 - 中国 亚运 | 141 | 42_观赛_指南_收藏_亚运 健儿 加油 |
|
85 |
+
| 43 | 中国 电竞 加油 - 一人 一句 - 一人 - 加油 亚运会 电竞 - 电竞 加油 亚运会 | 133 | 43_中国 电竞 加油_一人 一句_一人_加油 亚运会 电竞 |
|
86 |
+
| 44 | 暖阳 - 五周年 - 登场 - 林恒 - kpl | 132 | 44_暖阳_五周年_登场_林恒 |
|
87 |
+
| 45 | 官宣 亚运会 - 中国台北 - 官宣 - lol - 名单 | 119 | 45_官宣 亚运会_中国台北_官宣_lol |
|
88 |
+
| 46 | 荣誉 - 雅加达 亚运会 - 征途 - 选拔 - 雅加达 | 114 | 46_荣誉_雅加达 亚运会_征途_选拔 |
|
89 |
+
| 47 | 待遇 - 不公平 - 做好 - 准备 - 协会 | 108 | 47_待遇_不公平_做好_准备 |
|
90 |
+
| 48 | 首金 - 电竞 首金 - 拿下 - 中国队 - 王者 | 105 | 48_首金_电竞 首金_拿下_中国队 |
|
91 |
+
| 49 | esports - top - ad - 亚运会 ad - 心脏 | 103 | 49_esports_top_ad_亚运会 ad |
|
92 |
+
| 50 | 项目 运动员 - 文波 - 退出 - 彭立勋 - 赵嘉豪 | 91 | 50_项目 运动员_文波_退出_彭立勋 |
|
93 |
+
| 51 | 开票 - 门票 - 抽签 - 杭州 亚运会 电竞 - 杭州 亚运会 | 90 | 51_开票_门票_抽签_杭州 亚运会 电竞 |
|
94 |
+
| 52 | 眼中 - 青春 - 一种 - 亚运会 电竞 - 电竞 | 90 | 52_眼中_青春_一种_亚运会 电竞 |
|
95 |
+
| 53 | 加油 助威 - 中国 电竞 出征 - 电竞 出征 亚运 - 电竞 出征 - 一起 亚运 | 89 | 53_加油 助威_中国 电竞 出征_电竞 出征 亚运_电竞 出征 |
|
96 |
+
| 54 | 梦之队 - 心中 - 组队 - 解锁 - 选手 加油 | 87 | 54_梦之队_心中_组队_解锁 |
|
97 |
+
| 55 | xyg - 电子竞技 俱乐部 - 俱乐部 - 电子竞技 - ig | 81 | 55_xyg_电子竞技 俱乐部_俱乐部_电子竞技 |
|
98 |
+
| 56 | 人人 - buff - 守护 - 孩子 - 助力 | 78 | 56_人人_buff_守护_孩子 |
|
99 |
+
| 57 | 挑战 - 称号 - 亚运 荣耀 亚运会 - 荣耀 亚运会 电竞 - 测试 | 76 | 57_挑战_称号_亚运 荣耀 亚运会_荣耀 亚运会 电竞 |
|
100 |
+
| 58 | 越南 - 主教练 - 国家队 - 担任 - 联盟 | 75 | 58_越南_主教练_国家队_担任 |
|
101 |
+
| 59 | 加油 助威 - 中国 电竞 出征 - 电竞 出征 - 电竞 出征 亚运 - 一起 亚运 | 75 | 59_加油 助威_中国 电竞 出征_电竞 出征_电竞 出征 亚运 |
|
102 |
+
| 60 | 集训 名单 - lwx - gala - knight - missing | 75 | 60_集训 名单_lwx_gala_knight |
|
103 |
+
| 61 | 商品 - 首批 - 特许 商品 - 特许 - 回应 | 74 | 61_商品_首批_特许 商品_特许 |
|
104 |
+
| 62 | 大项 - 日本 - 电子竞技 成为 - 亚运会 正式 项目 - 正式 项目 | 71 | 62_大项_日本_电子竞技 成为_亚运会 正式 项目 |
|
105 |
+
| 63 | 现役 - 亚运 征途 - 征途 - 发布 头条 文章 - 发布 头条 | 70 | 63_现役_亚运 征途_征途_发布 头条 文章 |
|
106 |
+
| 64 | 韵味 - 邀请赛 - 全国 - 杭州 亚运会 杭州 - 亚运会 杭州 亚运会 | 70 | 64_韵味_邀请赛_全国_杭州 亚运会 杭州 |
|
107 |
+
| 65 | 亮相 - 王者 荣耀 亚运 - 荣耀 亚运 - 集体 亮相 - 国家集训队 集体 | 67 | 65_亮相_王者 荣耀 亚运_荣耀 亚运_集体 亮相 |
|
108 |
+
| 66 | 腾讯 - 转播 - 营地 - 成为 杭州 - 成为 杭州 亚运会 | 64 | 66_腾讯_转播_营地_成为 杭州 |
|
109 |
+
| 67 | 神秘 - 竞圈 - 中国 竞队 - 竞队 - 力量 | 64 | 67_神秘_竞圈_中国 竞队_竞队 |
|
110 |
+
| 68 | 体操 - 攻略 - 共设 - 跳水 - 产生 金牌 | 64 | 68_体操_攻略_共设_跳水 |
|
111 |
+
| 69 | 候补 - ruler - 全员 - 入选 亚运会 - 预选 | 62 | 69_候补_ruler_全员_入选 亚运会 |
|
112 |
+
| 70 | 西湖 - 央视 新闻 - 竞技 项目 - 央视 - 特色 | 62 | 70_西湖_央视 新闻_竞技 项目_央视 |
|
113 |
+
| 71 | 中国 电竞 - 中国 - 助威 - 电竞 - 一起 中国 | 61 | 71_中国 电竞_中国_助威_电竞 |
|
114 |
+
| 72 | 加油 助威 - 中国 电竞 出征 - 电竞 出征 亚运 - 电竞 出征 - 一起 亚运 | 60 | 72_加油 助威_中国 电竞 出征_电竞 出征 亚运_电竞 出征 |
|
115 |
+
| 73 | 电竞 国家队 名单 - 亚运会 电竞 国家队 - 国家队 名单 - 电竞 国家队 - 杭州 亚运会 电竞 | 60 | 73_电竞 国家队 名单_亚运会 电竞 国家队_���家队 名单_电竞 国家队 |
|
116 |
+
| 74 | wb - 北京 wb - wb 王者 荣耀 - wb 王者 - 北京 | 59 | 74_wb_北京 wb_wb 王者 荣耀_wb 王者 |
|
117 |
+
| 75 | 走进 - 现实 - 无畏 - 射手 - 亚运会 首发 | 59 | 75_走进_现实_无畏_射手 |
|
118 |
+
| 76 | wbg - 爆料 - 亚运会 教练 - 教练 - 本来 | 57 | 76_wbg_爆料_亚运会 教练_教练 |
|
119 |
+
| 77 | jackeylove - 换人 - ad - 亚运会 ad - 职业生涯 | 55 | 77_jackeylove_换人_ad_亚运会 ad |
|
120 |
+
| 78 | 备战 亚运 - 训练 - 过程 - 不同 - 非常 | 54 | 78_备战 亚运_训练_过程_不同 |
|
121 |
+
| 79 | 特许 - 特许 商品 - 商品 - 首批 - 上线 | 51 | 79_特许_特许 商品_商品_首批 |
|
122 |
+
|
123 |
+
</details>
|
124 |
+
|
125 |
+
## Training hyperparameters
|
126 |
+
|
127 |
+
* calculate_probabilities: True
|
128 |
+
* language: None
|
129 |
+
* low_memory: False
|
130 |
+
* min_topic_size: 10
|
131 |
+
* n_gram_range: (1, 1)
|
132 |
+
* nr_topics: None
|
133 |
+
* seed_topic_list: None
|
134 |
+
* top_n_words: 10
|
135 |
+
* verbose: True
|
136 |
+
* zeroshot_min_similarity: 0.7
|
137 |
+
* zeroshot_topic_list: None
|
138 |
+
|
139 |
+
## Framework versions
|
140 |
+
|
141 |
+
* Numpy: 1.25.2
|
142 |
+
* HDBSCAN: 0.8.37
|
143 |
+
* UMAP: 0.5.6
|
144 |
+
* Pandas: 2.0.3
|
145 |
+
* Scikit-Learn: 1.2.2
|
146 |
+
* Sentence-transformers: 3.0.1
|
147 |
+
* Transformers: 4.41.2
|
148 |
+
* Numba: 0.58.1
|
149 |
+
* Plotly: 5.15.0
|
150 |
+
* Python: 3.10.12
|
config.json
ADDED
@@ -0,0 +1,16 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"calculate_probabilities": true,
|
3 |
+
"language": null,
|
4 |
+
"low_memory": false,
|
5 |
+
"min_topic_size": 10,
|
6 |
+
"n_gram_range": [
|
7 |
+
1,
|
8 |
+
1
|
9 |
+
],
|
10 |
+
"nr_topics": null,
|
11 |
+
"seed_topic_list": null,
|
12 |
+
"top_n_words": 10,
|
13 |
+
"verbose": true,
|
14 |
+
"zeroshot_min_similarity": 0.7,
|
15 |
+
"zeroshot_topic_list": null
|
16 |
+
}
|
ctfidf.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:5d470ae195bd42f163c119fd156743eefe5c0fecdebf72397464891613e56969
|
3 |
+
size 1066048
|
ctfidf_config.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
topic_embeddings.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:c8db7cf2c7d7db9c17637d4fa3001de7ad54baab515f5bd50ea5c3da89fc27ef
|
3 |
+
size 331864
|
topics.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|