jinaai
/

jina-clip-v2

nan commited on Nov 20, 2024

Commit

ce68525

1 Parent(s): 11ad6a6

docs: update the example

Files changed (1) hide show

README.md CHANGED Viewed

@@ -166,15 +166,18 @@ This dual capability makes it an excellent tool for multimodal retrieval-augment
 from transformers import AutoModel
 # Initialize the model
-model = AutoModel.from_pretrained('jinaai/jina-clip-v2', trust_remote_code=True)
 # Sentences
-sentences = ['A blue cat', 'A red cat']
 # Public image URLs
 image_urls = [
-    'https://i.pinimg.com/600x315/21/48/7e/21487e8e0970dd366dafaed6ab25d8d8.jpg',
-    'https://i.pinimg.com/736x/c9/f2/3e/c9f23e212529f13f19bad5602d84b78b.jpg'
 ]
 # Choose a matryoshka dimension, set to None to get the full 1024-dim vectors
@@ -182,14 +185,21 @@ truncate_dim = 512
 # Encode text and images
 text_embeddings = model.encode_text(sentences, truncate_dim=truncate_dim)
-image_embeddings = model.encode_image(image_urls, truncate_dim=truncate_dim)  # also accepts PIL.image, local filenames, dataURI
 # Compute similarities
-print(text_embeddings[0] @ text_embeddings[1].T) # text embedding similarity
-print(text_embeddings[0] @ image_embeddings[0].T) # text-image cross-modal similarity
-print(text_embeddings[0] @ image_embeddings[1].T) # text-image cross-modal similarity
-print(text_embeddings[1] @ image_embeddings[0].T) # text-image cross-modal similarity
-print(text_embeddings[1] @ image_embeddings[1].T)# text-image cross-modal similarity
 ```
 or via sentence-transformers:

 from transformers import AutoModel
 # Initialize the model
+model = AutoModel.from_pretrained("jinaai/jina-clip-v2", trust_remote_code=True)
 # Sentences
+sentences = [
+    "A neural network walks into a bar and forgets why it came.",
+    "Why do programmers prefer dark mode? Because light attracts bugs.",
+]
 # Public image URLs
 image_urls = [
+    "https://i.pinimg.com/600x315/21/48/7e/21487e8e0970dd366dafaed6ab25d8d8.jpg",
+    "https://i.pinimg.com/736x/c9/f2/3e/c9f23e212529f13f19bad5602d84b78b.jpg",
 ]
 # Choose a matryoshka dimension, set to None to get the full 1024-dim vectors
 # Encode text and images
 text_embeddings = model.encode_text(sentences, truncate_dim=truncate_dim)
+image_embeddings = model.encode_image(
+    image_urls, truncate_dim=truncate_dim
+)  # also accepts PIL.image, local filenames, dataURI
+# Encode query text
+query = "tell me a joke about AI"
+text_query_embeddings = model.encode_text(
+    query, task="retrieval.query", truncate_dim=truncate_dim
+)
 # Compute similarities
+print(text_query_embeddings @ text_embeddings[1].T)  # text embedding similarity
+print(text_query_embeddings @ image_embeddings[0].T)  # text-image cross-modal similarity
+print(image_embeddings[0] @ image_embeddings[1].T)  # image-image cross-modal similarity
+print(image_embeddings[0] @ text_embeddings[0].T)  # image-text cross-modal similarity
 ```
 or via sentence-transformers: