Spaces:

polygraf-ai
/

copyright_checker

Running

App Files Files Community

eljanmahammadli commited on Mar 1

Commit

038d754

•

1 Parent(s): 61b027b

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -2

app.py CHANGED Viewed

@@ -22,6 +22,7 @@ import torch.nn.functional as F
 import nltk
 from unidecode import unidecode
 import time
 nltk.download('punkt')
@@ -56,6 +57,8 @@ def plagiarism_check(
     api_key = "AIzaSyCS1WQDMl1IMjaXtwSd_2rA195-Yc4psQE"
     api_key = "AIzaSyCB61O70B8AC3l5Kk3KMoLb6DN37B7nqIk"
     # api_key = "AIzaSyCg1IbevcTAXAPYeYreps6wYWDbU0Kz8tg"
     cse_id = "851813e81162b4ed4"
     time1 = time.perf_counter()
@@ -101,6 +104,14 @@ def plagiarism_check(
         + str(len(urlList))
     )
     # Populate matching scores for scrapped pages
     for i, soup in enumerate(soups):
         print(f"Analyzing {i+1} of {len(soups)} soups........................")
@@ -108,7 +119,8 @@ def plagiarism_check(
             page_content = soup.text
             for j, sent in enumerate(sentences):
                 # score = matchingScore(sent, page_content)
-                score = matchingScoreWithTimeout(sent, page_content)
                 ScoreArray[i][j] = score
     print(f"Time for matching score: {time.perf_counter()-time1}")
@@ -342,7 +354,7 @@ def ai_generated_test(ai_option, input):
     bc_score_list = average_bc_scores.tolist()
     mc_score_list = average_mc_scores.tolist()
-    bc_score = {"AI": bc_score[1].item(), "HUMAN": bc_score[0].item()}
     mc_score = {}
     label_map = ["OpenAI GPT", "Mistral", "CLAUDE", "Gemini", "LLAMA 2"]

 import nltk
 from unidecode import unidecode
 import time
+from utils import cos_sim_torch, embed_text
 nltk.download('punkt')
     api_key = "AIzaSyCS1WQDMl1IMjaXtwSd_2rA195-Yc4psQE"
     api_key = "AIzaSyCB61O70B8AC3l5Kk3KMoLb6DN37B7nqIk"
     # api_key = "AIzaSyCg1IbevcTAXAPYeYreps6wYWDbU0Kz8tg"
+    api_key = "AIzaSyA5VVwY1eEoIoflejObrxFDI0DJvtbmgW8"
     cse_id = "851813e81162b4ed4"
     time1 = time.perf_counter()
         + str(len(urlList))
     )
+    source_embeddings = []
+    for i, soup in enumerate(soups):
+        if soup:
+            page_content = soup.text
+            source_embeddings.append(embed_text(page_content))
+        else:
+           source_embeddings.append(None)
     # Populate matching scores for scrapped pages
     for i, soup in enumerate(soups):
         print(f"Analyzing {i+1} of {len(soups)} soups........................")
             page_content = soup.text
             for j, sent in enumerate(sentences):
                 # score = matchingScore(sent, page_content)
+                # score = matchingScoreWithTimeout(sent, page_content)
+                score = cos_sim_torch(embed_text(sent), source_embeddings[i])
                 ScoreArray[i][j] = score
     print(f"Time for matching score: {time.perf_counter()-time1}")
     bc_score_list = average_bc_scores.tolist()
     mc_score_list = average_mc_scores.tolist()
+    bc_score = {"AI": bc_score_list[1], "HUMAN": bc_score_list[0]}
     mc_score = {}
     label_map = ["OpenAI GPT", "Mistral", "CLAUDE", "Gemini", "LLAMA 2"]