0.65MBertopic / README.md
Alprocco's picture
Add BERTopic model
5d64c13
metadata
tags:
  - bertopic
library_name: bertopic
pipeline_tag: text-classification

0.65MBertopic

This is a BERTopic model. BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.

Usage

To use this model, please install BERTopic:

pip install -U bertopic

You can use the model as follows:

from bertopic import BERTopic
topic_model = BERTopic.load("Alprocco/0.65MBertopic")

topic_model.get_topic_info()

Topic overview

  • Number of topics: 30
  • Number of training documents: 651942
Click here for an overview of all topics.
Topic ID Topic Keywords Topic Frequency Label
-1 швейцарии - 00 - добрый - подскажите - швейцарії 226 -1_швейцарии_00_добрый_подскажите
0 беженцев - швейцарии - подскажите - добрый - украины 304403 0_беженцев_швейцарии_подскажите_добрый
1 спасибо - паляниця - слів - хвилин - обов язково 95996 1_спасибо_паляниця_слів_хвилин
2 билет - евро - франков - билеты - поезд 65451 2_билет_евро_франков_билеты
3 страховка - страховку - страховки - врачу - покрывает 33616 3_страховка_страховку_страховки_врачу
4 квартиру - жилье - жильё - квартиры - жилья 28737 4_квартиру_жилье_жильё_квартиры
5 курсы - языка - школу - переводчик - язык 24097 5_курсы_языка_школу_переводчик
6 лагере - лагерь - волонтеры - вокзале - волонтеров 18415 6_лагере_лагерь_волонтеры_вокзале
7 паспорт - паспорта - загран - крест - красный 13344 7_паспорт_паспорта_загран_крест
8 соц - детей - семьи - помощь - выплаты 11493 8_соц_детей_семьи_помощь
9 реклама - дякуємо - чат - гугл - карту 8741 9_реклама_дякуємо_чат_гугл
10 info - чату - повернути - внимательны - причина 7727 10_info_чату_повернути_внимательны
11 фото - очки - добрый - видео - доброго 6313 11_фото_очки_добрый_видео
12 знаю - девушка - девочки - людей - вопрос 5385 12_знаю_девушка_девочки_людей
13 пластик - вода - воду - свет - квартире 3909 13_пластик_вода_воду_свет
14 телефон - интернет - приложение - подскажите - телефона 3291 14_телефон_интернет_приложение_подскажите
15 контракт - получения - подскажите - онлайн - заявку 3096 15_контракт_получения_подскажите_онлайн
16 юриста - полицию - штраф - полиции - закон 2849 16_юриста_полицию_штраф_полиции
17 кг - размер - фр - розмір - см 2759 17_кг_размер_фр_розмір
18 00 - занятия - заняття - занятие - 30 2442 18_00_занятия_заняття_занятие
19 кг - франків - заказ - продукты - замовлення 2180 19_кг_франків_заказ_продукты
20 вода - воду - озера - воды - подскажите 1398 20_вода_воду_озера_воды
21 война - бронь - войны - війни - людей 1317 21_война_бронь_войны_війни
22 радио - канал - тв - канале - налог 1275 22_радио_канал_тв_канале
23 книги - взяти - чекаю - взять - почитати 756 23_книги_взяти_чекаю_взять
24 sbb - приложение - приложении - билет - купить 624 24_sbb_приложение_приложении_билет
25 кофе - чай - наличии - немножко - франков 589 25_кофе_чай_наличии_немножко
26 сайте - письмо - написать - адрес - сайті 572 26_сайте_письмо_написать_адрес
27 автобус - билеты - билет - посмотрите - дешевле 559 27_автобус_билеты_билет_посмотрите
28 развод - деньги - справи - суд - выглядит 382 28_развод_деньги_справи_суд

Training hyperparameters

  • calculate_probabilities: False
  • language: None
  • low_memory: False
  • min_topic_size: 10
  • n_gram_range: (1, 1)
  • nr_topics: 30
  • seed_topic_list: None
  • top_n_words: 10
  • verbose: True

Framework versions

  • Numpy: 1.21.5
  • HDBSCAN: 0.8.33
  • UMAP: 0.5.4
  • Pandas: 1.4.4
  • Scikit-Learn: 1.3.0
  • Sentence-transformers: 2.2.2
  • Transformers: 4.33.2
  • Numba: 0.55.1
  • Plotly: 5.9.0
  • Python: 3.9.13