DSS Submission commited on
Commit
091ea57
1 Parent(s): 21569e3

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +8 -271
README.md CHANGED
@@ -30,281 +30,18 @@ topic_model.get_topic_info()
30
 
31
  ## Topic overview
32
 
33
- * Number of topics: 267
34
  * Number of training documents: 550677
35
 
36
  <details>
37
  <summary>Click here for an overview of all topics.</summary>
38
-
39
- | Topic ID | Topic Keywords | Topic Frequency | Label |
40
- |----------|----------------|-----------------|-------|
41
- | -1 | швейцарии - швейцарії - статус - 00 - добрый | 102 | -1_швейцарии_швейцарії_статус_00 |
42
- | 0 | беженцев - украину - украины - біженців - україни | 271717 | 0_беженцев_украину_украины_біженців |
43
- | 1 | паляниця - огромное - благодарю - ответ - паляниця доброго | 46975 | 1_паляниця_огромное_благодарю_ответ |
44
- | 2 | страховка - страховку - врачу - страховки - врача | 17173 | 2_страховка_страховку_врачу_страховки |
45
- | 3 | животных - собаку - собак - собаки - собака | 16379 | 3_животных_собаку_собак_собаки |
46
- | 4 | лагере - лагерь - лагеря - лагерях - таборі | 6680 | 4_лагере_лагерь_лагеря_лагерях |
47
- | 5 | билет - билеты - квиток - билета - проездной | 5178 | 5_билет_билеты_квиток_билета |
48
- | 6 | кантоне - кантона - кантону - каком кантоне - кантоны | 5160 | 6_кантоне_кантона_кантону_каком кантоне |
49
- | 7 | квартиру - ищу - ищем - жильё - жилье | 5091 | 7_квартиру_ищу_ищем_жильё |
50
- | 8 | завтра - 00 - августа - 30 - сентября | 4428 | 8_завтра_00_августа_30 |
51
- | 9 | вокзале - волонтеры - волонтеров - волонтёры - волонтёров | 4414 | 9_вокзале_волонтеры_волонтеров_волонтёры |
52
- | 10 | языка - язык - англійської - мови - англійської мови | 4203 | 10_языка_язык_англійської_мови |
53
- | 11 | переводчик - переводчика - перевод - нужен переводчик - переводчиком | 3971 | 11_переводчик_переводчика_перевод_нужен переводчик |
54
- | 12 | паспорт - паспорта - паспорту - загран - паспортом | 3912 | 12_паспорт_паспорта_паспорту_загран |
55
- | 13 | зуб - зубы - стоматолог - лечение - страховка | 3855 | 13_зуб_зубы_стоматолог_лечение |
56
- | 14 | работу - роботу - контракт - работодатель - резюме | 3769 | 14_работу_роботу_контракт_работодатель |
57
- | 15 | евро - франки - франков - гривны - поменять | 3752 | 15_евро_франки_франков_гривны |
58
- | 16 | банк - банке - банка - банку - счёт | 3195 | 16_банк_банке_банка_банку |
59
- | 17 | соц - соц помощь - социальной - служба - работника | 3121 | 17_соц_соц помощь_социальной_служба |
60
- | 18 | письмо - почту - почте - пришло - письма | 2557 | 18_письмо_почту_почте_пришло |
61
- | 19 | навчання - мови - школу - школа - школи | 2552 | 19_навчання_мови_школу_школа |
62
- | 20 | обувь - размер - одежда - взуття - одежду | 2421 | 20_обувь_размер_одежда_взуття |
63
- | 21 | детей - ребёнка - ребенка - пособие - выплаты | 2264 | 21_детей_ребёнка_ребенка_пособие |
64
- | 22 | köln - 41 - basel - 380 - duisburg | 2025 | 22_köln_41_basel_380 |
65
- | 23 | город - городе - каком городе - города - каком | 1948 | 23_город_городе_каком городе_города |
66
- | 24 | перевозчика - перевозчиков - перевізника - перевізників - перевозчик | 1927 | 24_перевозчика_перевозчиков_перевізника_перевізників |
67
- | 25 | школу - школы - школа - школе - школи | 1900 | 25_школу_школы_школа_школе |
68
- | 26 | группу - группа - добавьте - добавьте группу - группе | 1896 | 26_группу_группа_добавьте_добавьте группу |
69
- | 27 | поезд - поезда - поезде - потяг - поездом | 1843 | 27_поезд_поезда_поезде_потяг |
70
- | 28 | договор - аренды - квартиры - квартиру - аренду | 1839 | 28_договор_аренды_квартиры_квартиру |
71
- | 29 | знаю - знаю знаю - сожалению - сожалению знаю - честно | 1774 | 29_знаю_знаю знаю_сожалению_сожалению знаю |
72
- | 30 | стране - страну - страны - страна - другую страну | 1769 | 30_стране_страну_страны_страна |
73
- | 31 | французского - французької - французский - языка - мови | 1766 | 31_французского_французької_французский_языка |
74
- | 32 | ссылку - сайт - сайте - посилання - ссылка | 1750 | 32_ссылку_сайт_сайте_посилання |
75
- | 33 | базель - базеле - бассейн - базеля - базелі | 1697 | 33_базель_базеле_бассейн_базеля |
76
- | 34 | кг - молоко - продукты - кофе - мясо | 1660 | 34_кг_молоко_продукты_кофе |
77
- | 35 | волос - парикмахер - стрижка - стрижки - ботокс | 1642 | 35_волос_парикмахер_стрижка_стрижки |
78
- | 36 | україна - слава україні - слава - україні - україни | 1631 | 36_україна_слава україні_слава_україні |
79
- | 37 | авто - машину - машины - машина - автомобиль | 1627 | 37_авто_машину_машины_машина |
80
- | 38 | чат - сообщения - чату - сообщениях - чаті | 1623 | 38_чат_сообщения_чату_сообщениях |
81
- | 39 | месяца - недели - месяц - дней - месяцев | 1606 | 39_месяца_недели_месяц_дней |
82
- | 40 | магазин - магазины - магазине - магазина - магазинах | 1518 | 40_магазин_магазины_магазине_магазина |
83
- | 41 | деньги - выплаты - платить - гроші - денег | 1517 | 41_деньги_выплаты_платить_гроші |
84
- | 42 | статус - статуса - статус статус - статусом - получения статуса | 1481 | 42_статус_статуса_статус статус_статусом |
85
- | 43 | посольство - консульство - посольстве - посольства - консульства | 1385 | 43_посольство_консульство_посольстве_посольства |
86
- | 44 | имеете - шо - имеете ввиду - маєте увазі - виду | 1369 | 44_имеете_шо_имеете ввиду_маєте увазі |
87
- | 45 | самолёт - аэропорта - аэропорту - аэропорт - літак | 1365 | 45_самолёт_аэропорта_аэропорту_аэропорт |
88
- | 46 | бесплатно - безкоштовно - бесплатный - бесплатные - gratis | 1327 | 46_бесплатно_безкоштовно_бесплатный_бесплатные |
89
- | 47 | адрес - адресу - адреса - подскажите адрес - точный адрес | 1319 | 47_адрес_адресу_адреса_подскажите адрес |
90
- | 48 | велосипед - велосипеды - велосипеда - велосипедов - самокат | 1292 | 48_велосипед_велосипеды_велосипеда_велосипедов |
91
- | 49 | диван - мебель - мебели - меблі - перевезти | 1251 | 49_диван_мебель_мебели_меблі |
92
- | 50 | миграционную - миграционной - миграционную службу - службу - миграционный | 1246 | 50_миграционную_миграционной_миграционную службу_службу |
93
- | 51 | война - войны - війна - війни - закончится | 1242 | 51_война_войны_війна_війни |
94
- | 52 | фр - 300 - 200 - 100 - 500 | 1224 | 52_фр_300_200_100 |
95
- | 53 | телефон - айфон - телефона - телефонов - продам | 1211 | 53_телефон_айфон_телефона_телефонов |
96
- | 54 | математики - курсы - курси - заняття - курсов | 1207 | 54_математики_курсы_курси_заняття |
97
- | 55 | заберу - возьму - брала - собираюсь - иду | 1185 | 55_заберу_возьму_брала_собираюсь |
98
- | 56 | номер - контакт - контакты - контакти - позвонить | 1110 | 56_номер_контакт_контакты_контакти |
99
- | 57 | гуманитарной - гуманитарную - гуманитарную помощь - гуманитарной помощи - гуманитарная | 1090 | 57_гуманитарной_гуманитарную_гуманитарную помощь_гуманитарной помощи |
100
- | 58 | информация - источник - документы - документ - інформація | 1039 | 58_информация_источник_документы_документ |
101
- | 59 | футбол - спорт - тренер - спорта - зал | 1008 | 59_футбол_спорт_тренер_спорта |
102
- | 60 | налог - налоги - налогов - налоговой - tax | 963 | 60_налог_налоги_налогов_налоговой |
103
- | 61 | отопление - электричество - вода - газ - воду | 952 | 61_отопление_электричество_вода_газ |
104
- | 62 | кровать - ліжко - матрас - матрац - кровати | 951 | 62_кровать_ліжко_матрас_матрац |
105
- | 63 | личку - напишу - напишите - написала - написать | 944 | 63_личку_напишу_напишите_написала |
106
- | 64 | итальянского - италии - италию - итальянский - итальянском | 939 | 64_итальянского_италии_италию_итальянский |
107
- | 65 | чемодан - сумка - чемоданы - сумку - сумки | 922 | 65_чемодан_сумка_чемоданы_сумку |
108
- | 66 | карту - карта - карте - сим карту - сим | 918 | 66_карту_карта_карте_сим карту |
109
- | 67 | находитесь - живете - живёте - знаходитесь - проживаете | 912 | 67_находитесь_живете_живёте_знаходитесь |
110
- | 68 | junior - билет - проездной - ездить - взрослого | 894 | 68_junior_билет_проездной_ездить |
111
- | 69 | семьи - воссоединение - семью - семья - воссоединение семьи | 871 | 69_семьи_воссоединение_семью_семья |
112
- | 70 | швейцарии - языка - школу - язык - английский | 870 | 70_швейцарии_языка_школу_язык |
113
- | 71 | очки - окуляри - fielmann - зрение - очков | 862 | 71_очки_окуляри_fielmann_зрение |
114
- | 72 | детей - дети - детьми - детям - мама | 861 | 72_детей_дети_детьми_детям |
115
- | 73 | автобус - автобусы - автобуса - автобусом - автобусе | 850 | 73_автобус_автобусы_автобуса_автобусом |
116
- | 74 | user - користувача - налаштуваннях - info - чату | 846 | 74_user_користувача_налаштуваннях_info |
117
- | 75 | прививки - тест - сертификат - ковид - ковида | 846 | 75_прививки_тест_сертификат_ковид |
118
- | 76 | полицию - полиции - полиция - поліцію - поліція | 835 | 76_полицию_полиции_полиция_поліцію |
119
- | 77 | крест - красный крест - красный - креста - красного креста | 818 | 77_крест_красный крест_красный_креста |
120
- | 78 | праздник - фестиваль - ярмарка - роком - свято | 802 | 78_праздник_фестиваль_ярмарка_роком |
121
- | 79 | львова - львов - львів - цюриха - місця | 792 | 79_львова_львов_львів_цюриха |
122
- | 80 | девушка - девушке - спрашивала - женщина - девушки | 790 | 80_девушка_девушке_спрашивала_женщина |
123
- | 81 | русскоговорящего - врач - русскоговорящий - русскоговорящих - врача | 789 | 81_русскоговорящего_врач_русскоговорящий_русскоговорящих |
124
- | 82 | будапешт - будапешта - поезд - мукачево - венгрии | 769 | 82_будапешт_будапешта_поезд_мукачево |
125
- | 83 | парковки - парковка - парковку - парковке - машину | 755 | 83_парковки_парковка_парковку_парковке |
126
- | 84 | июнь - июль - выплаты - июня - май | 752 | 84_июнь_июль_выплаты_июня |
127
- | 85 | кораблики - озера - озеро - озеру - озере | 706 | 85_кораблики_озера_озеро_озеру |
128
- | 86 | думку - людей - мнение - людям - человек | 704 | 86_думку_людей_мнение_людям |
129
- | 87 | юриста - юрист - адвоката - адвокат - юристы | 682 | 87_юриста_юрист_адвоката_адвокат |
130
- | 88 | массаж - спортивный - спина - общению - профес��иональный | 655 | 88_массаж_спортивный_спина_общению |
131
- | 89 | страховка - страховку - швейцарии - страховки - страховой | 646 | 89_страховка_страховку_швейцарии_страховки |
132
- | 90 | пластик - пластика - пластику - пластиком - новый | 634 | 90_пластик_пластика_пластику_пластиком |
133
- | 91 | ноутбук - ноутбуки - ноутбука - ремонт - пк | 623 | 91_ноутбук_ноутбуки_ноутбука_ремонт |
134
- | 92 | уроки - музыки - играть - музыкой - преподаватель | 621 | 92_уроки_музыки_играть_музыкой |
135
- | 93 | сайты - жилья - поиска - подскажите сайты - поиска жилья | 609 | 93_сайты_жилья_поиска_подскажите сайты |
136
- | 94 | церкви - церковь - святого - неділю - служба | 606 | 94_церкви_церковь_святого_неділю |
137
- | 95 | интернет - интернета - інтернет - роутер - wi | 562 | 95_интернет_интернета_інтернет_роутер |
138
- | 96 | пользователь - размещать - внимательны - user - услуги | 560 | 96_пользователь_размещать_внимательны_user |
139
- | 97 | бронь - брони - броні - revolut - улице | 551 | 97_бронь_брони_броні_revolut |
140
- | 98 | цена - ціна - цены - стоимость - цену | 546 | 98_цена_ціна_цены_стоимость |
141
- | 99 | ехали - ходили - едем - одессы - находимся | 533 | 99_ехали_ходили_едем_одессы |
142
- | 100 | карточку - карточки - карты - картку - карточка | 533 | 100_карточку_карточки_карты_картку |
143
- | 101 | интересует - интересует вопрос - цікавить - вопрос интересует - интересно | 528 | 101_интересует_интересует вопрос_цікавить_вопрос интересует |
144
- | 102 | мусора - мусор - сміття - пакеты - картон | 527 | 102_мусора_мусор_сміття_пакеты |
145
- | 103 | книги - книжки - библиотеке - книгу - библиотеки | 517 | 103_книги_книжки_библиотеке_книгу |
146
- | 104 | книги - книжки - книг - украинском - українською | 515 | 104_книги_книжки_книг_украинском |
147
- | 105 | налог - налоги - швейцарии - податки - доход | 495 | 105_налог_налоги_швейцарии_податки |
148
- | 106 | штраф - штрафы - штрафа - штрафов - выписали | 487 | 106_штраф_штрафы_штрафа_штрафов |
149
- | 107 | музей - музеи - музеї - art - музея | 480 | 107_музей_музеи_музеї_art |
150
- | 108 | фото - скиньте фото - фотографии - скину - картинку | 477 | 108_фото_скиньте фото_фотографии_скину |
151
- | 109 | радио - телевизор - телевидение - радіо - тв | 454 | 109_радио_телевизор_телевидение_радіо |
152
- | 110 | закон - закона - законы - закону - законом | 445 | 110_закон_закона_законы_закону |
153
- | 111 | 90 - 90 дней - шенгена - шенген - шенгену | 443 | 111_90_90 дней_шенгена_шенген |
154
- | 112 | ukraine_reborn - montbrillant 52 - rue montbrillant - організовує_ukraine_reborn - montbrillant | 435 | 112_ukraine_reborn_montbrillant 52_rue montbrillant_організовує_ukraine_reborn |
155
- | 113 | мітинг - оон - женеві - завтра - сегодня | 431 | 113_мітинг_оон_женеві_завтра |
156
- | 114 | границе - границы - границу - кордон - кордону | 427 | 114_границе_границы_границу_кордон |
157
- | 115 | размер - см - розмір - размеры - ширина | 422 | 115_размер_см_розмір_размеры |
158
- | 116 | ждать - жду - ждём - чекати - чекаю | 417 | 116_ждать_жду_ждём_чекати |
159
- | 117 | facebook - telegram instagram - сторінка facebook - facebook telegram - ukraine_reborn | 416 | 117_facebook_telegram instagram_сторінка facebook_facebook telegram |
160
- | 118 | фотограф - фото - фотографії - камера - основи | 413 | 118_фотограф_фото_фотографії_камера |
161
- | 119 | извините - вибачте - простите - жаль - прощения | 410 | 119_извините_вибачте_прости��е_жаль |
162
- | 120 | фейсбуке - marketplace - фейсбук - фейсбуці - facebook | 392 | 120_фейсбуке_marketplace_фейсбук_фейсбуці |
163
- | 121 | berlin - берлине - looking - room - hello | 390 | 121_berlin_берлине_looking_room |
164
- | 122 | рождении - свидетельство - свидетельства - свидетельство рождении - народження | 381 | 122_рождении_свидетельство_свидетельства_свидетельство рождении |
165
- | 123 | страхование - страховку - страховка - страховой - страховки | 375 | 123_страхование_страховку_страховка_страховой |
166
- | 124 | собака - собачка - ищем - маленькая - жильё | 372 | 124_собака_собачка_ищем_маленькая |
167
- | 125 | юриста - адвокат - адвоката - юрист - юристов | 362 | 125_юриста_адвокат_адвоката_юрист |
168
- | 126 | приложение - приложении - додаток - приложения - app | 359 | 126_приложение_приложении_додаток_приложения |
169
- | 127 | зоопарк - зоопарка - zoo - вход - бесплатный | 355 | 127_зоопарк_зоопарка_zoo_вход |
170
- | 128 | вода - воду - воды - пить - туалет | 351 | 128_вода_воду_воды_пить |
171
- | 129 | психолог - психолога - психотерапевт - працюю - психологическая | 351 | 129_психолог_психолога_психотерапевт_працюю |
172
- | 130 | пять - числа - число - штук - 10 | 349 | 130_пять_числа_число_штук |
173
- | 131 | европе - европу - европа - европы - європі | 348 | 131_европе_европу_европа_европы |
174
- | 132 | отель - отеле - готель - хостел - отеля | 347 | 132_отель_отеле_готель_хостел |
175
- | 133 | биометрию - биометрии - біометрію - spop - биометрия | 346 | 133_биометрию_биометрии_біометрію_spop |
176
- | 134 | завалили - рашист - user - irina - iryna | 346 | 134_завалили_рашист_user_irina |
177
- | 135 | машинку - машину - машинка - машина - мыть | 346 | 135_машинку_машину_машинка_машина |
178
- | 136 | германию - берлин - продуктами - берлина - германии | 343 | 136_германию_берлин_продуктами_берлина |
179
- | 137 | год - года - конца года - году - год момента | 338 | 137_год_года_конца года_году |
180
- | 138 | sunrise - swisscom - користування - кінця - конца августа | 336 | 138_sunrise_swisscom_користування_кінця |
181
- | 139 | украине - налог - податки - налоги - доход | 328 | 139_украине_налог_податки_налоги |
182
- | 140 | прививки - тест - ковид - ковида - сертификат | 328 | 140_прививки_тест_ковид_ковида |
183
- | 141 | турист - турцию - туризм - маршруты - поездки | 321 | 141_турист_турцию_туризм_маршруты |
184
- | 142 | коляска - коляску - кресло - нужна - детское | 317 | 142_коляска_коляску_кресло_нужна |
185
- | 143 | дешевле - дешевше - дешевле купить - цены - aldi | 307 | 143_дешевле_дешевше_дешевле купить_цены |
186
- | 144 | чехии - молдову - добраться - молдовы - границе | 304 | 144_чехии_молдову_добраться_молдовы |
187
- | 145 | авторизации - послал - действие - 2023 - ссылку | 303 | 145_авторизации_послал_действие_2023 |
188
- | 146 | заказ - замовлення - народження - кондитер - делает | 298 | 146_заказ_замовлення_народження_кондитер |
189
- | 147 | мастера - маникюра - мастера маникюра - ищу мастера - педикюра | 293 | 147_мастера_маникюра_мастера маникюра_ищу мастера |
190
- | 148 | бензин - газ - продам - заправки - автомат | 293 | 148_бензин_газ_продам_заправки |
191
- | 149 | магазин - украинцев - українські - вареники - українських | 287 | 149_магазин_украинцев_українські_вареники |
192
- | 150 | повезло - удачи - повезёт - пощастило - щастить | 285 | 150_повезло_удачи_повезёт_пощастило |
193
- | 151 | green - зелёную - зелёная - карта - карту | 284 | 151_green_зелёную_зелёная_карта |
194
- | 152 | сигареты - сигарет - курить - пачки - алкоголь | 277 | 152_сигареты_сигарет_курить_пачки |
195
- | 153 | крісло - кресло - стула - стул - стулья | 273 | 153_крісло_кресло_стула_стул |
196
- | 154 | танці - танцы - танців - заняття - вівторок | 272 | 154_танці_танцы_танців_заняття |
197
- | 155 | мошенники - шахраї - мошенников - шахрайство - мошенник | 271 | 155_мошенники_шахраї_мошенников_шахрайство |
198
- | 156 | девочки - дівчата - девчонки - девушки - маникюр | 270 | 156_девочки_дівчата_девчонки_девушки |
199
- | 157 | спам - бот - админы - админ - канале | 270 | 157_спам_бот_админы_админ |
200
- | 158 | концерт - театр - 00 - фестиваль - сегодня | 270 | 158_концерт_театр_00_фестиваль |
201
- | 159 | канал - канале - каналу - канала - описании группы | 268 | 159_канал_канале_каналу_канала |
202
- | 160 | немецкий - немецкого - школе - дети - школу | 262 | 160_немецкий_немецкого_школе_дети |
203
- | 161 | йога - инструктор - йоги - занятие - занятия | 260 | 161_йога_инструктор_йоги_занятие |
204
- | 162 | онлайн - регистрацию - регистрация - регистрации - регистрироваться | 255 | 162_онлайн_регистрацию_регистрация_регистрации |
205
- | 163 | сарказм - смешно - шутка - юмор - смішно | 249 | 163_сарказм_смешно_шутка_юмор |
206
- | 164 | париж - францию - франции - билеты - билет | 248 | 164_париж_францию_франции_билеты |
207
- | 165 | цветов - квіток - цветы - сад - саду | 241 | 165_цветов_квіток_цветы_сад |
208
- | 166 | реклама - рекламу - рекламы - dwarn - объявления | 240 | 166_реклама_рекламу_рекламы_dwarn |
209
- | 167 | sbb - mobile - приложение - сайте sbb - приложении sbb | 236 | 167_sbb_mobile_приложение_сайте sbb |
210
- | 168 | б1 - второй - b2 - пачки - две | 236 | 168_б1_второй_b2_пачки |
211
- | 169 | церкви - церковь - українська - украинская - української | 234 | 169_церкви_церковь_українська_украинская |
212
- | 170 | русских - магазин - магазине - русском - русский | 234 | 170_русских_магазин_магазине_русском |
213
- | 171 | такси - такс - халб - фри - хальб | 233 | 171_такси_такс_халб_фри |
214
- | 172 | горы - горах - гори - гору - гор | 231 | 172_горы_горах_гори_гору |
215
- | 173 | 90 - 90 дней - дней - 90 днів - днів | 230 | 173_90_90 дней_дней_90 днів |
216
- | 174 | стол - стіл - столик - письменный - стола | 222 | 174_стол_стіл_столик_письменный |
217
- | 175 | мужчин - женщин - мужчины - мужчинам - женщины | 219 | 175_мужчин_женщин_мужчины_мужчинам |
218
- | 176 | ваучер - ваучеры - хальбтакс - halbtax - халбтакс | 218 | 176_ваучер_ваучеры_хальбтакс_halbtax |
219
- | 177 | пораду - рекомендую - совет - советы - рекомендации | 217 | 177_пораду_рекомендую_совет_советы |
220
- | 178 | зоопарк - zoo - украинцев - вход - українців | 214 | 178_зоопарк_zoo_украинцев_вход |
221
- | 179 | тест - пцр - ковид - тесты - тест корону | 213 | 179_тест_пцр_ковид_тесты |
222
- | 180 | австрии - австрию - австрії - австрия - райффайзен | 212 | 180_австрии_австрию_австрії_австрия |
223
- | 181 | видео - відео - youtube - ютубе - ютубі | 211 | 181_видео_відео_youtube_ютубе |
224
- | 182 | развод - розвод - подружжя - деньги - ведитесь | 210 | 182_развод_розвод_подружжя_деньги |
225
- | 183 | безкоштовне - безкоштовне заняття - заняття - 3d - ігри | 209 | 183_безкоштовне_безкоштовне заняття_заняття_3d |
226
- | 184 | пенсию - пенсии - пенсионного - ин��алидности - фонд | 206 | 184_пенсию_пенсии_пенсионного_инвалидности |
227
- | 185 | распечатать - роздрукувати - документы - документи - документ | 203 | 185_распечатать_роздрукувати_документы_документи |
228
- | 186 | канаду - визу - канада - визы - канаде | 201 | 186_канаду_визу_канада_визы |
229
- | 187 | виза - визу - визы - віза - візу | 199 | 187_виза_визу_визы_віза |
230
- | 188 | брак - замуж - браке - выйти - офіційно | 199 | 188_брак_замуж_браке_выйти |
231
- | 189 | парикмахер - стрижки - волосся - стрижка - салоне | 196 | 189_парикмахер_стрижки_волосся_стрижка |
232
- | 190 | 16 - 18 - 14 16 - 17 - 14 | 196 | 190_16_18_14 16_17 |
233
- | 191 | занимаетесь - спрашиваете - чья - режи - делаете | 196 | 191_занимаетесь_спрашиваете_чья_режи |
234
- | 192 | прокат - зимой - зиму - кататься - покататься | 194 | 192_прокат_зимой_зиму_кататься |
235
- | 193 | бесплатный - проезд - бесплатный проезд - бесплатного проезда - бесплатного | 192 | 193_бесплатный_проезд_бесплатный проезд_бесплатного проезда |
236
- | 194 | 2024 - 2023 - 2022 - 2024 года - 2021 | 191 | 194_2024_2023_2022_2024 года |
237
- | 195 | лампы - светлана - свет - света - світло | 187 | 195_лампы_светлана_свет_света |
238
- | 196 | предупреждение - авторизации - послал - действие - 11 2022 | 185 | 196_предупреждение_авторизации_послал_действие |
239
- | 197 | спробувати - малювати - малювання - картини - художник | 175 | 197_спробувати_малювати_малювання_картини |
240
- | 198 | магазинах - магазине - гречка - магазин - магазины | 175 | 198_магазинах_магазине_гречка_магазин |
241
- | 199 | волонтеров - волонтеры - волонтёров - волонтерів - швейцарии | 175 | 199_волонтеров_волонтеры_волонтёров_волонтерів |
242
- | 200 | косметолога - косметолог - чистку - лица - образованием | 175 | 200_косметолога_косметолог_чистку_лица |
243
- | 201 | кг - вес - фр - 10 фр - ваги | 174 | 201_кг_вес_фр_10 фр |
244
- | 202 | user - marina - elena - ирина - ekaterina | 171 | 202_user_marina_elena_ирина |
245
- | 203 | дюссельдорфе - консульство - дюссельдорф - консульстве - термин | 169 | 203_дюссельдорфе_консульство_дюссельдорф_консульстве |
246
- | 204 | airbnb - booking - аренды - ваучер - снять | 166 | 204_airbnb_booking_аренды_ваучер |
247
- | 205 | вина - мартини - виньетку - пиво - вино | 166 | 205_вина_мартини_виньетку_пиво |
248
- | 206 | квартиры - квартиру - житло - украинцев - украинцам | 163 | 206_квартиры_квартиру_житло_украинцев |
249
- | 207 | флаг - прапор - украинский - український - флаги | 161 | 207_флаг_прапор_украинский_український |
250
- | 208 | вимоги - знання - hotel - ресторан - роботи | 161 | 208_вимоги_знання_hotel_ресторан |
251
- | 209 | вчера - вчора - позавчера - вчера получили - вчера вечером | 160 | 209_вчера_вчора_позавчера_вчера получили |
252
- | 210 | пароль - зайти - вводить - кабинет - ввести | 160 | 210_пароль_зайти_вводить_кабинет |
253
- | 211 | причину - причина - нащо - причиной - парадокс | 159 | 211_причину_причина_нащо_причиной |
254
- | 212 | завалили - рашист - микола - лилия - наталья | 156 | 212_завалили_рашист_микола_лилия |
255
- | 213 | няню - няня - ищу - тиждень - проживанням | 153 | 213_няню_няня_ищу_тиждень |
256
- | 214 | числа - 25 - 33 - 37 - 32 | 152 | 214_числа_25_33_37 |
257
- | 215 | игрушки - іграшки - игрушек - детские - дитячі | 151 | 215_игрушки_іграшки_игрушек_детские |
258
- | 216 | интервью - собеседование - собеседования - собеседовании - співб��сіду | 150 | 216_интервью_собеседование_собеседования_собеседовании |
259
- | 217 | собирать - збирати - безпеки - зібрані - 00 19 | 147 | 217_собирать_збирати_безпеки_зібрані |
260
- | 218 | третий - троих - шт - мес - третье | 146 | 218_третий_троих_шт_мес |
261
- | 219 | витамины - аптеке - анализ - входят - беременности | 145 | 219_витамины_аптеке_анализ_входят |
262
- | 220 | сел - часах - аппарат - старий - ноут | 145 | 220_сел_часах_аппарат_старий |
263
- | 221 | испании - испанию - іспанії - испанский - море | 144 | 221_испании_испанию_іспанії_испанский |
264
- | 222 | hospice - general - général - meyrin - ukr | 144 | 222_hospice_general_général_meyrin |
265
- | 223 | вопросы - задать - задать вопрос - спросить - вопрос | 144 | 223_вопросы_задать_задать вопрос_спросить |
266
- | 224 | используете - слово - действие - 2023 - 03 2023 | 144 | 224_используете_слово_действие_2023 |
267
- | 225 | migros - мигрос - мигросе - change - кооп | 141 | 225_migros_мигрос_мигросе_change |
268
- | 226 | проверить - проверено - проверяют - проверьте - баланс | 140 | 226_проверить_проверено_проверяют_проверьте |
269
- | 227 | ортодонта - ортодонт - посоветуйте - хорошего - контакты | 140 | 227_ортодонта_ортодонт_посоветуйте_хорошего |
270
- | 228 | психолог - консультацію - безкоштовна - консультації - психологічної | 139 | 228_психолог_консультацію_безкоштовна_консультації |
271
- | 229 | опыт - досвід - опыте - опытом - личный опыт | 138 | 229_опыт_досвід_опыте_опытом |
272
- | 230 | название - имя - назва - фамилия - названия | 138 | 230_название_имя_назва_фамилия |
273
- | 231 | правила - новые правила - правилах - правилам - новые | 138 | 231_правила_новые правила_правилах_правилам |
274
- | 232 | рыба - рыбу - лицензии - права - ловить | 137 | 232_рыба_рыбу_лицензии_права |
275
- | 233 | маски - транспорте - маску - маска - носить | 136 | 233_маски_транспорте_маску_маска |
276
- | 234 | дорого - дороже - дороговато - дорогие - дорогой | 136 | 234_дорого_дороже_дороговато_дорогие |
277
- | 235 | инвалидность - инвалидов - инвалидности - інвалідність - инвалидам | 134 | 235_инвалидность_инвалидов_инвалидности_інвалідність |
278
- | 236 | sozialamt - социал - социале - социаламт - соціал | 134 | 236_sozialamt_социал_социале_социаламт |
279
- | 237 | адміни - адмін - адмінів - адміна - забаньте | 134 | 237_адміни_адмін_адмінів_адміна |
280
- | 238 | прапор - флаги - флаг - купити - днем | 133 | 238_прапор_флаги_флаг_купити |
281
- | 239 | обратно - возвращаться - возвращать - вернут - возвращают | 132 | 239_обратно_возвращаться_возвращать_вернут |
282
- | 240 | закрыто - закрыт - закрыли - закрита - закрыты | 131 | 240_закрыто_закрыт_закрыли_закрита |
283
- | 241 | холодильник - маленький - см - ремонту - высота | 129 | 241_холодильник_маленький_см_ремонту |
284
- | 242 | пробуйте - попробовать - попробуйте - спробуйте - пробовать | 127 | 242_пробуйте_попробовать_попробуйте_спробуйте |
285
- | 243 | amazon - доставки - доставляют - доставка - заказывать | 126 | 243_amazon_доставки_доставляют_доставка |
286
- | 244 | мошенничество - причина - user - предложение - требований | 125 | 244_мошенничество_причина_user_предложение |
287
- | 245 | парк - парке - park - парка - площадка | 125 | 245_парк_парке_park_парка |
288
- | 246 | неделю - тиждень - неделя - каждую неделю - недели | 124 | 246_неделю_тиждень_неделя_каждую неделю |
289
- | 247 | паспорт - поезде - поезд - билет - показать | 122 | 247_паспорт_поезде_поезд_билет |
290
- | 248 | rue - lausanne - genève - louis - avenue | 121 | 248_rue_lausanne_genève_louis |
291
- | 249 | ферма - фермы - ферме - бажано - робота | 120 | 249_ферма_фермы_ферме_бажано |
292
- | 250 | фото - фотографируют - ребенка - отпечатки - детей | 118 | 250_фото_фотографируют_ребенка_отпечатки |
293
- | 251 | собирать - поля - поле - сезон - паляниця | 117 | 251_собирать_поля_поле_сезон |
294
- | 252 | yallo - сим - sunrise - swisscom - сим карту | 116 | 252_yallo_сим_sunrise_swisscom |
295
- | 253 | домой - додому - вернуться домой - вернуться - дома | 115 | 253_домой_додому_вернуться домой_вернуться |
296
- | 254 | marketplace - купити - олх - купить - швейцарії | 113 | 254_marketplace_купити_олх_купить |
297
- | 255 | сахар - таблетки - рецепту - рецепт - крови | 113 | 255_сахар_таблетки_рецепту_рецепт |
298
- | 256 | батька - отца - доверенность - разрешение - батьків | 112 | 256_батька_отца_доверенность_разрешение |
299
- | 257 | читайте - читать - внимательно - уважно - почитайте | 111 | 257_читайте_читать_внимательно_уважно |
300
- | 258 | шоколад - фабрики - музей - шоколадку - 15 франков | 111 | 258_шоколад_фабрики_музей_шоколадку |
301
- | 259 | евро - 450 - франков - 100 - франков месяц | 109 | 259_евро_450_франков_100 |
302
- | 260 | кнопку - натисніть - дякуємо - 60 - ios | 109 | 260_кнопку_натисніть_дякуємо_60 |
303
- | 261 | посмотрите - смотрите - подивіться - закрепах - смотря | 108 | 261_посмотрите_смотрите_подивіться_закрепах |
304
- | 262 | компании - компанія - компания - фирмы - компанії | 107 | 262_компании_компанія_компания_фирмы |
305
- | 263 | самокат - мальчика - хлопчика - хлопчик - девочки | 107 | 263_самокат_мальчика_хлопчика_хлопчик |
306
- | 264 | купить - подскажите купить - купити - женеве купить - знает купить | 102 | 264_купить_подскажите купить_купити_женеве купить |
307
- | 265 | помощь - помощь нужна - нужна - нужна помощь - допомога | 102 | 265_помощь_помощь нужна_нужна_нужна помощь |
308
 
309
  </details>
310
 
 
30
 
31
  ## Topic overview
32
 
33
+ * Number of topics: 267 #Please note that after training, we manually assessed all clusters and merged similar ones leading to a total of 14 distinct clusters.
34
  * Number of training documents: 550677
35
 
36
  <details>
37
  <summary>Click here for an overview of all topics.</summary>
38
+
39
+ ```python
40
+ topic_mapping = {-1: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 0: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Information Requests'}, 1: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 2: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Medical Insurance'}, 3: {'cluster_id': 2, 'cluster_name': 'Pet', 'sub_cluster': 'Pet'}, 4: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Asylum'}, 5: {'cluster_id': 3, 'cluster_name': 'Transportation', 'sub_cluster': 'Ticket Inquiries'}, 6: {'cluster_id': 3, 'cluster_name': 'Transportation', 'sub_cluster': 'Carriers, Transport to and from Ukraine'}, 7: {'cluster_id': 4, 'cluster_name': 'Accommodation', 'sub_cluster': 'Seeking'}, 8: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 9: {'cluster_id': 5, 'cluster_name': 'Volunteering', 'sub_cluster': 'Volunteering'}, 10: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Communication'}, 11: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Translation Services'}, 12: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Passport'}, 13: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Dentistry'}, 14: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Job'}, 15: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Currency'}, 16: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Banking'}, 17: {'cluster_id': 8, 'cluster_name': 'Social Services', 'sub_cluster': 'Protocols'}, 18: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Mail'}, 19: {'cluster_id': 9, 'cluster_name': 'Education', 'sub_cluster': 'Education'}, 20: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Clothing'}, 21: {'cluster_id': 8, 'cluster_name': 'Social Services', 'sub_cluster': 'Financial Assistance'}, 22: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 23: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 24: {'cluster_id': 3, 'cluster_name': 'Transportation', 'sub_cluster': 'Carriers, Transport to and from Ukraine'}, 25: {'cluster_id': 9, 'cluster_name': 'Education', 'sub_cluster': 'Education'}, 26: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 27: {'cluster_id': 3, 'cluster_name': 'Transportation', 'sub_cluster': 'Public Transportation'}, 28: {'cluster_id': 4, 'cluster_name': 'Accommodation', 'sub_cluster': 'Leasing Regulation'}, 29: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 30: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Open Chat'}, 31: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Communication'}, 32: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 33: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Regulation'}, 34: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Food'}, 35: {'cluster_id': 2, 'cluster_name': 'Pet', 'sub_cluster': 'Pet'}, 36: {'cluster_id': 3, 'cluster_name': 'Transportation', 'sub_cluster': 'Carriers, Transport to and from Ukraine'}, 37: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Vehicle'}, 38: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 39: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 40: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Medical Request'}, 41: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 42: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Status Acquisition'}, 43: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Consulate Services'}, 44: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 45: {'cluster_id': 3, 'cluster_name': 'Transportation', 'sub_cluster': 'Public Transportation'}, 46: {'cluster_id': 5, 'cluster_name': 'Volunteering', 'sub_cluster': 'Volunteering'}, 47: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 48: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Vehicle'}, 49: {'cluster_id': 4, 'cluster_name': 'Accommodation', 'sub_cluster': 'Seeking'}, 50: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Immigration Procedure'}, 51: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'War Chat'}, 52: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 53: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Network Provider'}, 54: {'cluster_id': 9, 'cluster_name': 'Education', 'sub_cluster': 'Education'}, 55: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 56: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 57: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Asylum'}, 58: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 59: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Leisure and Fitness'}, 60: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Tax'}, 61: {'cluster_id': 4, 'cluster_name': 'Accommodation', 'sub_cluster': 'Expense'}, 62: {'cluster_id': 4, 'cluster_name': 'Accommodation', 'sub_cluster': 'Seeking'}, 63: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 64: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 65: {'cluster_id': 3, 'cluster_name': 'Transportation', 'sub_cluster': 'Carriers, Transport to and from Ukraine'}, 66: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 67: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 68: {'cluster_id': 3, 'cluster_name': 'Transportation', 'sub_cluster': 'Public Transportation'}, 69: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Family Reunion'}, 70: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 71: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Medical Request'}, 72: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 73: {'cluster_id': 3, 'cluster_name': 'Transportation', 'sub_cluster': 'Public Transportation'}, 74: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 75: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Vaccinations'}, 76: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Police'}, 77: {'cluster_id': 8, 'cluster_name': 'Social Services', 'sub_cluster': 'Financial Assistance'}, 78: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Regulation'}, 79: {'cluster_id': 3, 'cluster_name': 'Transportation', 'sub_cluster': 'Carriers, Transport to and from Ukraine'}, 80: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 81: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Medical Request'}, 82: {'cluster_id': 3, 'cluster_name': 'Transportation', 'sub_cluster': 'Public Transportation'}, 83: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Parking'}, 84: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 85: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Travel'}, 86: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 87: {'cluster_id': 11, 'cluster_name': 'Legal information', 'sub_cluster': 'Legal information'}, 88: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 89: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 90: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Medical Insurance'}, 91: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Network Provider'}, 92: {'cluster_id': 9, 'cluster_name': 'Education', 'sub_cluster': 'Education'}, 93: {'cluster_id': 4, 'cluster_name': 'Accommodation', 'sub_cluster': 'Seeking'}, 94: {'cluster_id': 12, 'cluster_name': 'Religious Information', 'sub_cluster': 'Religious Information'}, 95: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Network Provider'}, 96: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 97: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 98: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 99: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 100: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Banking'}, 101: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 102: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 103: {'cluster_id': 8, 'cluster_name': 'Social Services', 'sub_cluster': 'Library'}, 104: {'cluster_id': 8, 'cluster_name': 'Social Services', 'sub_cluster': 'Library'}, 105: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Tax'}, 106: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Police'}, 107: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Travel'}, 108: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 109: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Network Provider'}, 110: {'cluster_id': 11, 'cluster_name': 'Legal information', 'sub_cluster': 'Legal information'}, 111: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Passport'}, 112: {'cluster_id': 9, 'cluster_name': 'Education', 'sub_cluster': 'Education'}, 113: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Regulation'}, 114: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Immigration Procedure'}, 115: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 116: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 117: {'cluster_id': 9, 'cluster_name': 'Education', 'sub_cluster': 'Education'}, 118: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Job'}, 119: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 120: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 121: {'cluster_id': 4, 'cluster_name': 'Accommodation', 'sub_cluster': 'Seeking'}, 122: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Translation Services'}, 123: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Medical Insurance'}, 124: {'cluster_id': 4, 'cluster_name': 'Accommodation', 'sub_cluster': 'Seeking'}, 125: {'cluster_id': 11, 'cluster_name': 'Legal information', 'sub_cluster': 'Legal information'}, 126: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 127: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 128: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 129: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Psychotherapy'}, 130: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 131: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 132: {'cluster_id': 4, 'cluster_name': 'Accommodation', 'sub_cluster': 'Seeking'}, 133: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Immigration Procedure'}, 134: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 135: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Home Appliances'}, 136: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 137: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 138: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 139: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Tax'}, 140: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Vaccinations'}, 141: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Travel'}, 142: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Medical Request'}, 143: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Shopping'}, 144: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 145: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 146: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 147: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Job'}, 148: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Vehicle'}, 149: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 150: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 151: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 152: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Medical Request'}, 153: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 154: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 155: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 156: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 157: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 158: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Leisure and Fitness'}, 159: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 160: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Communication'}, 161: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Leisure and Fitness'}, 162: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 163: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 164: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Travel'}, 165: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Shopping'}, 166: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 167: {'cluster_id': 3, 'cluster_name': 'Transportation', 'sub_cluster': 'Public Transportation'}, 168: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Communication'}, 169: {'cluster_id': 12, 'cluster_name': 'Religious Information', 'sub_cluster': 'Religious Information'}, 170: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Shopping'}, 171: {'cluster_id': 3, 'cluster_name': 'Transportation', 'sub_cluster': 'Taxi Services'}, 172: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Travel'}, 173: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Travel'}, 174: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 175: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Open Chat'}, 176: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 177: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 178: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Travel'}, 179: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Immigration Procedure'}, 180: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 181: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 182: {'cluster_id': 11, 'cluster_name': 'Legal information', 'sub_cluster': 'Divorce'}, 183: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 184: {'cluster_id': 8, 'cluster_name': 'Social Services', 'sub_cluster': 'Protocols'}, 185: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Shopping'}, 186: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 187: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Immigration Procedure'}, 188: {'cluster_id': 11, 'cluster_name': 'Legal information', 'sub_cluster': 'Marriage'}, 189: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Job'}, 190: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 191: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 192: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Leisure and Fitness'}, 193: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Travel'}, 194: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 195: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 196: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 197: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Leisure and Fitness'}, 198: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Shopping'}, 199: {'cluster_id': 5, 'cluster_name': 'Volunteering', 'sub_cluster': 'Volunteering'}, 200: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Job'}, 201: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Logistics'}, 202: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 203: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Consulate Services'}, 204: {'cluster_id': 4, 'cluster_name': 'Accommodation', 'sub_cluster': 'Seeking'}, 205: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Other Item Request'}, 206: {'cluster_id': 4, 'cluster_name': 'Accommodation', 'sub_cluster': 'Leasing Regulation'}, 207: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Other Item Request'}, 208: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Job'}, 209: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 210: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 211: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 212: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 213: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Infant & Toddler Care'}, 214: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 215: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 216: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 217: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Regulation'}, 218: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 219: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Medical Request'}, 220: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 221: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 222: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Hospice Care'}, 223: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 224: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 225: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Medical Request'}, 226: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 227: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Dentistry'}, 228: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 229: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 230: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Customs'}, 231: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 232: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 233: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Customs'}, 234: {'cluster_id': 6, 'cluster_name': 'Integration', 'sub_cluster': 'Customs'}, 235: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Disability'}, 236: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 237: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 238: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 239: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 240: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Regulation'}, 241: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Network Provider'}, 242: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 243: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 244: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 245: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Leisure and Fitness'}, 246: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 247: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Travel'}, 248: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 249: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Leisure and Fitness'}, 250: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Immigration Procedure'}, 251: {'cluster_id': 10, 'cluster_name': 'Social Activity', 'sub_cluster': 'Regulation'}, 252: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 253: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Open Chat'}, 254: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 255: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Medical Request'}, 256: {'cluster_id': 0, 'cluster_name': 'Immigration', 'sub_cluster': 'Immigration Procedure'}, 257: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 258: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 259: {'cluster_id': 8, 'cluster_name': 'Social Services', 'sub_cluster': 'Protocols'}, 260: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 261: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 262: {'cluster_id': -1, 'cluster_name': 'Unknown', 'sub_cluster': 'Unknown'}, 263: {'cluster_id': 1, 'cluster_name': 'Healthcare and Insurance', 'sub_cluster': 'Infant & Toddler Care'}, 264: {'cluster_id': 7, 'cluster_name': 'Living Essentials', 'sub_cluster': 'Shopping'}, 265: {'cluster_id': 5, 'cluster_name': 'Volunteering', 'sub_cluster': 'Volunteering'}}
41
+ df['cluster_id_fit'] = df['predicted_class_old'].map(lambda x: topic_mapping[x]['cluster_id'])
42
+ df['predicted_class'] = df['predicted_class_old'].map(lambda x: topic_mapping[x]['cluster_name'])
43
+ df['sub_cluster'] = df['predicted_class_old'].map(lambda x: topic_mapping[x]['sub_cluster'])
44
+ ```
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
45
 
46
  </details>
47