base_model: intfloat/multilingual-e5-small
datasets: []
language: []
library_name: sentence-transformers
pipeline_tag: sentence-similarity
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:24034
- loss:TripletLoss
- source_sentence: შედეგების მიღების შემდეგ, გინგრიჩმა სანტურუმი აქო, თუმცა მკაცრი
იყო რომნის მიმართ, რომლის გამოც აიოვას ეთერში გინგრიჩის წინააღმდეგ ნეგატიური სარეკლამო
კამპანია წარიმართა.
- In the VET sector, 320 managers completed a training needs assessment within the
EU-funded project "Technical Assistance to VET and Employment Reforms in Georgia"
(EUVEGE), with the purpose to enhance VET manager competencies.
- უბრალო ორიგამი არის ორიგამი შეზღუდვებით, რაც ნიშნავს, რომ ერთ ჯერზე მხოლოდ ერთი
გადაკეცვაა დასაშვები, დაუშვებელია უფრო რთული გადაკეცვები, როგორიცაა უკან გადაკეცვა
და ყველა გადაკეცვას აქვს პირდაპირ მიმართული მდებარეობა.
- After the results came in, Gingrich lauded Santorum, but had tough words for Romney,
on whose behalf negative campaign advertisements were aired in Iowa against Gingrich.
- source_sentence: ეს საკითხი აშკარად უფრო დეტალურ განხილვას იმსახურებს.
- The special advisor appointed by the World Federation for Medical Education took
part in this assessment to prepare relevant recommendations for the purpose of
bringing the quality assurance system in Georgia in line with the requirements
set by the World Federation.
- This subject clearly deserves a fuller discussion.
- The September 11 hijackers visited the World Trade Center a number of times, going
up with the throngs of tourists to the observation deck.
- source_sentence: უმეტეს შემთხვევაში, ჩართულნი არიან ადამიანები, ვინც შინაურ ფრინველებთან
მუშაობენ, მაგრამ ფრინველებზე დამკვირვებლებისთვისაც არსებობს გარკვეული რისკი.
- Most have involved people who work with poultry, but there is also some risk to
- Hipparion fauna is of major importance for dating the Neogene fossil-bearing sediments.
- შესაბამის პროცედურებს საფრანგეთის საარჩევნო კანონმდებლობა საკმაოდ მკაცრად ასახავს.
- source_sentence: აქვეა, თუმცა მიმალულია ვიწრო, ერთმანეთში გადახლართული პეკინური
ქუჩები და ეზოები, სავსე მოღიმარი, გულღია და ყურადღებიანი ხალხით.
- Side by side with them, almost hard to glimpse, still exists the web of small
streets and yards of the old city full of smiling, honest and considerate people.
- It did so with a sixty-thousand-troop Implementation Force (IFOR), which was followed
about a year later by a somewhat smaller Stabilization Force (SFOR).
- Inhibition of glutamate dehydrogenase by benzoquinones in maize seedlings.
- source_sentence: ლიგანდების კოორდინაციული ბუნება შესწავლილია ინფრაწითელი სპექტროსკოპიული
და რენტგენოგრაფიული მეთოდებით.
- La corrélation entre la pathologie du cerveau et le comportement soutient les
scientifiques dans leurs recherches.
- The Applicants argued that declaration of unconstitutionality of a normative act
by the Constitutional Court shall be followed by efficient legal consequences.
- The coordination character of cyanate ion has been studied by the methods of infrared
spectra and X-ray.
# SentenceTransformer based on intfloat/multilingual-e5-small
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-small](https://huggingface.co/intfloat/multilingual-e5-small). It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [intfloat/multilingual-e5-small](https://huggingface.co/intfloat/multilingual-e5-small)
- **Maximum Sequence Length:** 512 tokens
- **Output Dimensionality:** 384 tokens
- **Similarity Function:** Cosine Similarity
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("Tekkla/TripletLoss_flores_kaen")
# Run inference
sentences = [
'ლიგანდების კოორდინაციული ბუნება შესწავლილია ინფრაწითელი სპექტროსკოპიული და რენტგენოგრაფიული მეთოდებით.',
'The coordination character of cyanate ion has been studied by the methods of infrared spectra and X-ray.',
'The Applicants argued that declaration of unconstitutionality of a normative act by the Constitutional Court shall be followed by efficient legal consequences.',
embeddings = model.encode(sentences)
# [3, 384]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
# [3, 3]
## Training Details
### Training Dataset
#### Unnamed Dataset
* Size: 24,034 training samples
* Columns: anchor
, positive
, and negative
* Approximate statistics based on the first 1000 samples:
| | anchor | positive | negative |
| type | string | string | string |
| details |
- min: 7 tokens
- mean: 39.79 tokens
- max: 170 tokens
| - min: 8 tokens
- mean: 32.92 tokens
- max: 133 tokens
| - min: 8 tokens
- mean: 36.72 tokens
- max: 154 tokens
* Samples:
| anchor | positive | negative |
| 1979 წელს ის პირობით გაათავისუფლეს.
| He was released on licence in 1979.
| ფსიქოზის გავრცელების ხარისხი აჩვენებს წრფივ კორელაციას ურბანიზაციის ხარისხთან.
| ვეტერინარულ კონტროლს დაქვემდებარებული საქონლის ექსპორტისას - სერტიფიკატის წარდგენა სავალდებულოა მხოლოდ:
| When exporting the goods subject to veterinary control - it is mandatory to provide a certificate only:
| The Role of Terrestrial Mollusks in Propagation of Trematodes in Urban Environment.
| ბელა, ხომ კარგად ხარ?
| – Bella, are you okay?
| • to gain feedback on leading questions;
* Loss: [TripletLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
"distance_metric": "TripletDistanceMetric.EUCLIDEAN",
"triplet_margin": 5
### Evaluation Dataset
#### Unnamed Dataset
* Size: 3,005 evaluation samples
* Columns: anchor
, positive
, and negative
* Approximate statistics based on the first 1000 samples:
| | anchor | positive | negative |
| type | string | string | string |
| details | - min: 8 tokens
- mean: 38.7 tokens
- max: 138 tokens
| - min: 8 tokens
- mean: 31.89 tokens
- max: 96 tokens
| - min: 8 tokens
- mean: 36.32 tokens
- max: 95 tokens
* Samples:
| anchor | positive | negative |
| 3. თუ გადასახადის გადამხდელი იღებს ან მას უფლება აქვს, მიიღოს შემოსავალი პროცენტის სახით ან ქონების იჯარით გადაცემით, შემოსავალი სავალო ვალდებულების ან იჯარის ხელშეკრულების ვადის გასვლის მომენტში მიღებულად ითვლება.
| 3. If a taxpayer earns or has the right to earn income in the form of interest or from leasing property, the income shall be deemed to have been obtained at the moment when the debt obligation or lease agreement expires.
| In, Cd და Bi დაცილება ანიონიტ AB–17-ის OH′-ფორმაზე დალექვითი ქრომატოგრაფიის მეთოდით.
| პროფესიონალიზმის მაღალი ხარისხი ნიშნავს, რომ ჟურნალისტიკა, როგორც ინსტიტუტი, დიფერენცირებულია და სხვა ინსტიტუტებისგან განსხვავებული პრაქტიკა აქვს, მათ შორის, პოლიტიკის ჩათვლით.
| A high degree of professionalization of journalism means that journalism is differentiated as an institution and form of practice from other institutions and forms of practice – including politics.
| ჯანმრთელობის დაცვა და სოციალური დახმარება, კომუნალური, სოციალური და პერსონალური მომსახურების გაწევა.
| ამგვარად, მსგავს შემთხვევებში შეიძლება საჭირო იყოს დამატებითი ფრაზები, რათა თავიდან იქნეს აცილებული ისე წარმოჩენა, თითქოს მარწმუნებელ ანგარიშში ნაგულისხმევია, რომ პრაქტიკოსის პასუხისმგებლობა გამოთქმულ დასკვნაზე შემცირებულია ექსპერტის ჩართულობის გამო.
| Therefore, additional wording may be needed in such cases to prevent the assurance report implying that the practitioner’s responsibility for the conclusion expressed is reduced because of the involvement of the expert.
| სმენის პროთეზირება მრგვალი სარკმლის ეკრანირებისათვის ფოროვანი ელასტომერის და მეტალის ფირფიტის გამოყენებით.
* Loss: [TripletLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
"distance_metric": "TripletDistanceMetric.EUCLIDEAN",
"triplet_margin": 5
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: steps
- `per_device_train_batch_size`: 16
- `per_device_eval_batch_size`: 16
- `gradient_accumulation_steps`: 2
- `learning_rate`: 0.0001
- `num_train_epochs`: 10
- `warmup_steps`: 1000
- `batch_sampler`: no_duplicates
#### All Hyperparameters
### Training Logs
Click to expand
### Framework Versions
- Python: 3.10.12
- Sentence Transformers: 3.0.1
- Transformers: 4.42.4
- PyTorch: 2.3.1+cu121
- Accelerate: 0.32.1
- Datasets: 2.20.0
- Tokenizers: 0.19.1
## Citation
### BibTeX
#### Sentence Transformers
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
#### TripletLoss
title={In Defense of the Triplet Loss for Person Re-Identification},
author={Alexander Hermans and Lucas Beyer and Bastian Leibe},