Spaces:

JetBrains-Research
/

commit-message-editing-visualization

Sleeping

Petr Tsvetkov commited on Apr 7

Commit

30e165f

•

1 Parent(s): 5f3a4af

Synthetic dataset generation for the first 5 samples; visualization fixed

Files changed (3) hide show

change_visualizer.py CHANGED Viewed

@@ -20,8 +20,7 @@ def update_manual_view(diff_idx):
 def update_synthetic_view(diff_idx):
     diff_idx -= 1
     return (df_synthetic.iloc[diff_idx]['annotated_diff'], df_synthetic.iloc[diff_idx]['initial_msg_pred'],
-            df_synthetic.iloc[diff_idx][
-                'get_annotated_diff'],
             f"https://github.com/{df_synthetic.iloc[diff_idx]['repo']}/commit/{df_synthetic.iloc[diff_idx]['hash']}")

 def update_synthetic_view(diff_idx):
     diff_idx -= 1
     return (df_synthetic.iloc[diff_idx]['annotated_diff'], df_synthetic.iloc[diff_idx]['initial_msg_pred'],
+            df_synthetic.iloc[diff_idx]['reference'],
             f"https://github.com/{df_synthetic.iloc[diff_idx]['repo']}/commit/{df_synthetic.iloc[diff_idx]['hash']}")

generate_synthetic_dataset.py CHANGED Viewed

@@ -57,9 +57,16 @@ def generate_synthetic_dataset():
     df['initial_msg_prompt'] = df.apply(generate_prompt_for_row, axis=1)
     initial_messages_pred = []
-    for prompt in tqdm(df['initial_msg_prompt']):
-        output = generate_initial_msg(prompt)
-        initial_messages_pred.append(output)
     df['initial_msg_pred'] = initial_messages_pred

     df['initial_msg_prompt'] = df.apply(generate_prompt_for_row, axis=1)
     initial_messages_pred = []
+    for i, prompt in enumerate(tqdm(df['initial_msg_prompt'])):
+        output = None
+        if i < 5:
+            while output is None:
+                try:
+                    output = generate_initial_msg(prompt)
+                except:
+                    pass
+        initial_messages_pred.append(output if output is not None else "TBA")
     df['initial_msg_pred'] = initial_messages_pred

hf_data_loader.py CHANGED Viewed

@@ -19,7 +19,7 @@ def load_full_commit_dataset_as_pandas():
 def load_synthetic_dataset_as_pandas():
-    load_dataset(config.HF_SYNTHETIC_DATASET_NAME,
-                 split=config.HF_SYNTHETIC_DATASET_SPLIT,
-                 token=config.HF_TOKEN,
-                 cache_dir=config.CACHE_DIR).to_pandas()

 def load_synthetic_dataset_as_pandas():
+    return load_dataset(config.HF_SYNTHETIC_DATASET_NAME,
+                        split=config.HF_SYNTHETIC_DATASET_SPLIT,
+                        token=config.HF_TOKEN,
+                        cache_dir=config.CACHE_DIR).to_pandas()