File size: 19,696 Bytes
6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 471b59e 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 6947ef0 2006337 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 |
---
language: []
library_name: sentence-transformers
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:65699
- loss:MultipleNegativesRankingLoss
base_model: gerulata/slovakbert
datasets: []
widget:
- source_sentence: Mestom Trenčín prechádzajú 2 železničné trate- Trať 120 Bratislava-
Žilina a Trať 143 Trenčín- Chynorany. V súčasnosti sa pracuje na modernizácii
železničného prieťahu mestom, v roku 2017 bol odovzdaný do užívania nový železničný
most, postavená je nová letná plaváreň, keďže stará ustúpila novému mostu. Pre
obyvateľov asanovaných domov vystavalo mesto náhradné domy na novovzniknutých
uliciach Slivková a Šafránová. Pripravený je tiež projekt rekonštrukcie železničnej
stanice Trenčín, ktorá bude realizovaná spolu s rekonštrukciou autobusovej stanice,
čím vznikne moderný autobusový terminál s priamym napojením na ŽST.
sentences:
- V ktorom roku bola založená organizácia Gidonim ?
- Koľko železničných tratí prechádza cez mesto Trenčín ?
- Koľko rímskych vojakov bojovalo v Trenčíne proti Kvádom ?
- source_sentence: Ikonostas pozostáva zo štyroch radov a tvorí ho 102 ikon. Rám ikonostasu
pochádza približne z druhej polovice 18. – začiatku 19. storočia. Ikony sa delia
na tri skupiny podľa obdobia ich vzniku a štylistických príznakov. Dve najstaršie
ikony (Premenenie Pána a Panna Mária Ochrankyňa) pochádzajú z konca 17. storočia
a sú typické pre ikonopisectvo severných oblastí. Veľkú časť spodného radu ikonostasu
tvorí druhá skupina ikon, ktoré vznikli v druhej polovici 18. storočia. Ikony
umiestnené v troch vrchných radoch predstavujú tretiu skupinu. Datujú sa do prvej
tretiny 18. storočia.
sentences:
- Z akého ostrova pochádzajú dve najstaršie ikony Kiži ?
- Z akého storočia pochádzajú dve najstaršie ikony Kiži ?
- Aký trest dostal Jan Antonín - Baťa ?
- source_sentence: 'Začiatok 19.storočia bol poznačený tzv. gerilskými vojnami (špan.guerilla),
v ktorých sa obyvatelia spojili s okolitými mestami cádizskej provincie a odolávali
francúzskym okupačným vojskám, ktoré obsadili polostrov. Konfiškácia pôdy sa u
ľudí taktiež veľmi neosvedčila. Roľníci sa preto snažili vymaniť spod nepriaznivej
ekonomickej situácie a pridávali sa k sociálnym hnutiam, ktoré sa v tom čase začali
po provincii šíriť.
V súčasnosti sa Setenil, po prekonaní emigračných problémov z druhej polovice
20. storočia, aj naďalej rozvíja v tradičných hodnotách. Ťaží najmä z poľnohospodárstva
a turizmu. Vyznačuje sa výnimočnou architektúrou, impozantným okolím a jedinečnými
sviatkami, čo z neho robí jedno z najatraktívnejších miest provincie Cádiz.'
sentences:
- Čo dokazujú predmety nájdené v jaskyniach neďaleko obce Setenil de las bodegas
?
- Čím sa vyznačuje španielska obec Setenil de las bodegas ?
- Ako odovzdávajú prvé kolo matematickej olympiády žiaci SŠ ?
- source_sentence: V rokoch 1926-1928 vzrástol export obuvi a firma Baťa ovládala
viac ako polovicu československého vývozu. Vo firme došlo k zavedeniu pásovej
výroby, ktorá bola používaná v závodoch Henryho Forda. Produktivita práce vzrástla
o 75% a počet zamestnancov o 35%, čistý obrat firmy predstavoval 1,9 miliardy
predvojnových korún. Koncom roku 1928 tvorila továreň komplex 30 budov, koncern
sa ďalej rozrastal a Baťa podnikal v ďalších sférach hospodárstva (gumárenský,
chemický, textilný, drevársky priemysel a mnohé ďalšie). Baťa v roku 1931 vyrábal
v Zlíne, Otrokoviciach, Třebíči, Bošanoch a Nových Zámkoch. V roku 1931 sa rodinný
podnik zmenil na akciovú spoločnosť so základným imaním 135 mil. korún. Už dlho
predtým vznikali dcérske spoločnosti po celom svete, k tomu pribúdali továrne
v Nemecku, Anglicku, Holandsku, Poľsku a mnohých ďalších krajinách. Vytvoril celý
rad výchovných aj vzdelávacích organizácií (Baťova škola práce), v Zlíne vzniklo
vlastné filmové štúdio, ktoré sa zaoberalo natáčaním reklám na obuvnícke výrobky.
Neskôr sa zo štúdia stali známe Filmové ateliéry Kudlov.
sentences:
- V ktorých rokoch zastával slovenský matematik Ladislav Fodor funkciu rektora ?
- Kam letel Tomáš Baťa v čase svojej nehody ?
- V akom ďalšom priemysle podnikal neskôr Baťa ?
- source_sentence: Prvý most cez Zlatý roh nechal vybudovať cisár Justinián I. V roku
1502 vypísal sultán Bajazid II. súťaž na stavbu nového mosta, do ktorej sa prihlásili
aj Leonardo da Vinci a Michelangelo Buonarroti, ale z realizácie návrhov nakoniec
zišlo. V roku 1863 vznikol druhý, drevený most, ktorý v roku 1875 nahradil železný
most, postavený francúzskymi staviteľmi. Štvrtý most postavili Nemci v roku 1912
a slúžil až do roku 1992, kedy bol zničený požiarom. Bolo rozhodnuté o stavbe
mosta súčasného, ktorý vybudovala domáca firma STFA Group.
sentences:
- V ktorom roku vznikol druhý drevený most cez záliv Zlatý roh ?
- Kde sa Alexios spolu s dvomi staršími bratmi zamestnal po abdikácii Izáka I. a
smrti svojho otca ?
- Aká je priemerná dĺžka života v Eritrei ?
pipeline_tag: sentence-similarity
---
# SentenceTransformer based on gerulata/slovakbert
### Model Sources
- **Repository:** [Model Training and Evaluation Scripts ](https://github.com/hladek/slovak-retrieval)
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [gerulata/slovakbert](https://huggingface.co/gerulata/slovakbert) <!-- at revision 629d4e16f546fad0054b5143fe13ccbea03259e2 -->
- **Maximum Sequence Length:** 300 tokens
- **Output Dimensionality:** 768 tokens
- **Similarity Function:** Cosine Similarity
<!-- - **Training Dataset:** Unknown -->
<!-- - **Language:** Unknown -->
<!-- - **License:** Unknown -->
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 300, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'Prvý most cez Zlatý roh nechal vybudovať cisár Justinián I. V roku 1502 vypísal sultán Bajazid II. súťaž na stavbu nového mosta, do ktorej sa prihlásili aj Leonardo da Vinci a Michelangelo Buonarroti, ale z realizácie návrhov nakoniec zišlo. V roku 1863 vznikol druhý, drevený most, ktorý v roku 1875 nahradil železný most, postavený francúzskymi staviteľmi. Štvrtý most postavili Nemci v roku 1912 a slúžil až do roku 1992, kedy bol zničený požiarom. Bolo rozhodnuté o stavbe mosta súčasného, ktorý vybudovala domáca firma STFA Group.',
'V ktorom roku vznikol druhý drevený most cez záliv Zlatý roh ?',
'Aká je priemerná dĺžka života v Eritrei ?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```
<!--
### Direct Usage (Transformers)
<details><summary>Click to see the direct usage in Transformers</summary>
</details>
-->
<!--
### Downstream Usage (Sentence Transformers)
You can finetune this model on your own dataset.
<details><summary>Click to expand</summary>
</details>
-->
<!--
### Out-of-Scope Use
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
-->
<!--
## Bias, Risks and Limitations
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
-->
<!--
### Recommendations
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
-->
## Training Details
### Training Dataset
#### Unnamed Dataset
* Size: 65,699 training samples
* Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>sentence_2</code>
* Approximate statistics based on the first 1000 samples:
| | sentence_0 | sentence_1 | sentence_2 |
|:--------|:------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
| type | string | string | string |
| details | <ul><li>min: 99 tokens</li><li>mean: 185.5 tokens</li><li>max: 300 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 14.74 tokens</li><li>max: 34 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 15.05 tokens</li><li>max: 34 tokens</li></ul> |
* Samples:
| sentence_0 | sentence_1 | sentence_2 |
|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------|
| <code>Gymnázium a neskôr filozofiu študoval v Nitre. V roku 1951 ilegálne emigroval cez Rakúsko do Nemecka, kde v St. Augustine skončil teologické štúdiá. V roku 1952 bol vysvätený za kňaza a následný rok odchádza ako misionár do mesta Bello Horizonte v Brazílii. Páter Jozef Filus pôsobil v tejto krajine celých 46 rokov. Tu sa učil po portugalsky, dejiny a kultúru krajiny. Neskôr pôsobil v mestách Tres Rios a Rio de Janeiro, Santa Casa, Juiz Fora, Vale Jequitiuhonha a Gama. Ešte aj vo svojich 75 rokoch pôsobil vo veľkej nemocnici v Bello Horizonte. V tomto meste je aj pochovaný.</code> | <code>V ktorom roku bol rímskokatolícky misionár Jozef Filus vysvätený za kňaza ?</code> | <code>V ktorom roku nebol rímskokatolícky misionár Jozef Filus vysvätený za kňaza ?</code> |
| <code>Gymnázium a neskôr filozofiu študoval v Nitre. V roku 1951 ilegálne emigroval cez Rakúsko do Nemecka, kde v St. Augustine skončil teologické štúdiá. V roku 1952 bol vysvätený za kňaza a následný rok odchádza ako misionár do mesta Bello Horizonte v Brazílii. Páter Jozef Filus pôsobil v tejto krajine celých 46 rokov. Tu sa učil po portugalsky, dejiny a kultúru krajiny. Neskôr pôsobil v mestách Tres Rios a Rio de Janeiro, Santa Casa, Juiz Fora, Vale Jequitiuhonha a Gama. Ešte aj vo svojich 75 rokoch pôsobil vo veľkej nemocnici v Bello Horizonte. V tomto meste je aj pochovaný.</code> | <code>Kam emigroval rímskokatolícky misionár Jozef Filus v roku 1951 ?</code> | <code>Kam emigroval rímskokatolícky misionár Jozef Filus v roku 2001 ?</code> |
| <code>Gymnázium a neskôr filozofiu študoval v Nitre. V roku 1951 ilegálne emigroval cez Rakúsko do Nemecka, kde v St. Augustine skončil teologické štúdiá. V roku 1952 bol vysvätený za kňaza a následný rok odchádza ako misionár do mesta Bello Horizonte v Brazílii. Páter Jozef Filus pôsobil v tejto krajine celých 46 rokov. Tu sa učil po portugalsky, dejiny a kultúru krajiny. Neskôr pôsobil v mestách Tres Rios a Rio de Janeiro, Santa Casa, Juiz Fora, Vale Jequitiuhonha a Gama. Ešte aj vo svojich 75 rokoch pôsobil vo veľkej nemocnici v Bello Horizonte. V tomto meste je aj pochovaný.</code> | <code>Kde študoval rímskokatolícky misionár Jozef Filus filozofiu ?</code> | <code>Kde študoval rímskokatolícky misionár Jozef Filus medicínu ?</code> |
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
```json
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `per_device_train_batch_size`: 16
- `per_device_eval_batch_size`: 16
- `num_train_epochs`: 1
- `fp16`: True
- `multi_dataset_batch_sampler`: round_robin
#### All Hyperparameters
<details><summary>Click to expand</summary>
- `overwrite_output_dir`: False
- `do_predict`: False
- `eval_strategy`: no
- `prediction_loss_only`: True
- `per_device_train_batch_size`: 16
- `per_device_eval_batch_size`: 16
- `per_gpu_train_batch_size`: None
- `per_gpu_eval_batch_size`: None
- `gradient_accumulation_steps`: 1
- `eval_accumulation_steps`: None
- `learning_rate`: 5e-05
- `weight_decay`: 0.0
- `adam_beta1`: 0.9
- `adam_beta2`: 0.999
- `adam_epsilon`: 1e-08
- `max_grad_norm`: 1
- `num_train_epochs`: 1
- `max_steps`: -1
- `lr_scheduler_type`: linear
- `lr_scheduler_kwargs`: {}
- `warmup_ratio`: 0.0
- `warmup_steps`: 0
- `log_level`: passive
- `log_level_replica`: warning
- `log_on_each_node`: True
- `logging_nan_inf_filter`: True
- `save_safetensors`: True
- `save_on_each_node`: False
- `save_only_model`: False
- `restore_callback_states_from_checkpoint`: False
- `no_cuda`: False
- `use_cpu`: False
- `use_mps_device`: False
- `seed`: 42
- `data_seed`: None
- `jit_mode_eval`: False
- `use_ipex`: False
- `bf16`: False
- `fp16`: True
- `fp16_opt_level`: O1
- `half_precision_backend`: auto
- `bf16_full_eval`: False
- `fp16_full_eval`: False
- `tf32`: None
- `local_rank`: 0
- `ddp_backend`: None
- `tpu_num_cores`: None
- `tpu_metrics_debug`: False
- `debug`: []
- `dataloader_drop_last`: False
- `dataloader_num_workers`: 0
- `dataloader_prefetch_factor`: 2
- `past_index`: -1
- `disable_tqdm`: False
- `remove_unused_columns`: True
- `label_names`: None
- `load_best_model_at_end`: False
- `ignore_data_skip`: False
- `fsdp`: []
- `fsdp_min_num_params`: 0
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
- `fsdp_transformer_layer_cls_to_wrap`: None
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
- `deepspeed`: None
- `label_smoothing_factor`: 0.0
- `optim`: adamw_torch
- `optim_args`: None
- `adafactor`: False
- `group_by_length`: False
- `length_column_name`: length
- `ddp_find_unused_parameters`: None
- `ddp_bucket_cap_mb`: None
- `ddp_broadcast_buffers`: False
- `dataloader_pin_memory`: True
- `dataloader_persistent_workers`: False
- `skip_memory_metrics`: True
- `use_legacy_prediction_loop`: False
- `push_to_hub`: False
- `resume_from_checkpoint`: None
- `hub_model_id`: None
- `hub_strategy`: every_save
- `hub_private_repo`: False
- `hub_always_push`: False
- `gradient_checkpointing`: False
- `gradient_checkpointing_kwargs`: None
- `include_inputs_for_metrics`: False
- `eval_do_concat_batches`: True
- `fp16_backend`: auto
- `push_to_hub_model_id`: None
- `push_to_hub_organization`: None
- `mp_parameters`:
- `auto_find_batch_size`: False
- `full_determinism`: False
- `torchdynamo`: None
- `ray_scope`: last
- `ddp_timeout`: 1800
- `torch_compile`: False
- `torch_compile_backend`: None
- `torch_compile_mode`: None
- `dispatch_batches`: None
- `split_batches`: None
- `include_tokens_per_second`: False
- `include_num_input_tokens_seen`: False
- `neftune_noise_alpha`: None
- `optim_target_modules`: None
- `batch_eval_metrics`: False
- `batch_sampler`: batch_sampler
- `multi_dataset_batch_sampler`: round_robin
</details>
### Training Logs
| Epoch | Step | Training Loss |
|:------:|:----:|:-------------:|
| 0.1217 | 500 | 0.7764 |
| 0.2435 | 1000 | 0.4429 |
| 0.3652 | 1500 | 0.3971 |
| 0.4870 | 2000 | 0.375 |
| 0.6087 | 2500 | 0.3427 |
| 0.7305 | 3000 | 0.3246 |
| 0.8522 | 3500 | 0.3173 |
| 0.9739 | 4000 | 0.3101 |
### Framework Versions
- Python: 3.10.8
- Sentence Transformers: 3.0.1
- Transformers: 4.41.2
- PyTorch: 1.13.1
- Accelerate: 0.31.0
- Datasets: 2.19.1
- Tokenizers: 0.19.1
## Citation
### BibTeX
#### Sentence Transformers
```bibtex
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
```
#### MultipleNegativesRankingLoss
```bibtex
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
```
<!--
## Glossary
*Clearly define terms in order to be accessible across audiences.*
-->
<!--
## Model Card Authors
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
-->
<!--
## Model Card Contact
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
--> |