Spaces:

naveed-stockmark
/

kg_reasoning_demo

Runtime error

App Files Files Community

naveed-stockmark commited on Feb 15, 2024

Commit

c8746df

verified ·

1 Parent(s): a916ec7

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -4

app.py CHANGED Viewed

@@ -101,7 +101,7 @@ def get_rebel_infer_df(path="./rebel_inference_processed_ss.csv"):
 # Data source 3: luke inference
 # @st.cache_data(persist="disk")
-def get_luke_infer_df(path="./luke_fulltext_ss_infer_20240112.csv"):
     luke_infer_df = pd.read_csv(path)
     luke_infer_df = luke_infer_df.rename(columns={"source_mention": "source_en", "target_mention": "target_en", "pred": "relation"})
@@ -136,7 +136,7 @@ instance_df = build_instance_df()
 # Get KG df
 @st.cache_data(persist="disk")
-def get_kg_df(path="./kg_master_ss_sample_20240215.csv"):
     kg_df =  pd.read_csv(path)
     kg_df['kg_id'] = kg_df.index
     kg_df = kg_df[kg_df.mode_relation.apply(lambda x: x in ['material_of', 'part_of', 'has_use'])]
@@ -297,8 +297,11 @@ if len(match_df) > 0:
                     prefix = edge_prefixes[k]
-                    source_url = "https://www.wikidata.org/wiki/Q" + str(int(path[f'{prefix}_source_wikidata']))
-                    target_url = "https://www.wikidata.org/wiki/Q" + str(int(path[f'{prefix}_target_wikidata']))
                     relation_url = "https://www.wikidata.org/wiki/Property:P" + str(int(relation_to_id[path[f'{prefix}_mode_relation']]))
                     source_en = path[f'{prefix}_source_en']
@@ -314,9 +317,14 @@ if len(match_df) > 0:
                         instance_ids = eval(rel_data[f'{relation}_instances'])
                         instances = instance_df.loc[instance_ids]
                         neg_instance_ids = list(chain.from_iterable([eval(rel_data[k]) for k in rel_data.keys() if '_instances' in k and relation not in k]))
                         neg_instances = instance_df.loc[neg_instance_ids]
                         st.write(f"**Total Number of Evidence Instances:** {int(rel_data['n_evidence'])}")
                         st.write(f"**Number of Instances that support the relation:** {int(rel_data['n_support'])}")
                         st.write(f"**Average Evidence Score:** {rel_data['avg_score']}")
@@ -329,6 +337,7 @@ if len(match_df) > 0:
                         count_dict = dict(Counter(instances.relation.to_list() + neg_instances.relation.to_list()))
                         count_df = pd.DataFrame.from_dict(count_dict, orient='index')
                         st.write("Evidence relation distribution for above edge")
                         count_df

 # Data source 3: luke inference
 # @st.cache_data(persist="disk")
+def get_luke_infer_df(path="../kg_infer/en_wiki/luke_fulltext_ss_infer_20240112.csv"):
     luke_infer_df = pd.read_csv(path)
     luke_infer_df = luke_infer_df.rename(columns={"source_mention": "source_en", "target_mention": "target_en", "pred": "relation"})
 # Get KG df
 @st.cache_data(persist="disk")
+def get_kg_df(path="../knowledge_platform/kg_data/kg_master_ss_sample_20240215.csv"):
     kg_df =  pd.read_csv(path)
     kg_df['kg_id'] = kg_df.index
     kg_df = kg_df[kg_df.mode_relation.apply(lambda x: x in ['material_of', 'part_of', 'has_use'])]
                     prefix = edge_prefixes[k]
+                    source_wikidata = int(path[f'{prefix}_source_wikidata'])
+                    target_wikidata = int(path[f'{prefix}_target_wikidata'])
+                    source_url = "https://www.wikidata.org/wiki/Q" + str(source_wikidata)
+                    target_url = "https://www.wikidata.org/wiki/Q" + str(target_wikidata)
                     relation_url = "https://www.wikidata.org/wiki/Property:P" + str(int(relation_to_id[path[f'{prefix}_mode_relation']]))
                     source_en = path[f'{prefix}_source_en']
                         instance_ids = eval(rel_data[f'{relation}_instances'])
                         instances = instance_df.loc[instance_ids]
                         neg_instance_ids = list(chain.from_iterable([eval(rel_data[k]) for k in rel_data.keys() if '_instances' in k and relation not in k]))
                         neg_instances = instance_df.loc[neg_instance_ids]
+                        # extra filtering
+                        instances = instances[instances.apply(lambda x: x.source_wikidata in [source_wikidata, target_wikidata] and x.target_wikidata in [source_wikidata, target_wikidata], axis=1)]
                         st.write(f"**Total Number of Evidence Instances:** {int(rel_data['n_evidence'])}")
                         st.write(f"**Number of Instances that support the relation:** {int(rel_data['n_support'])}")
                         st.write(f"**Average Evidence Score:** {rel_data['avg_score']}")
                         count_dict = dict(Counter(instances.relation.to_list() + neg_instances.relation.to_list()))
                         count_df = pd.DataFrame.from_dict(count_dict, orient='index')
+                        count_df.columns = ['count']
                         st.write("Evidence relation distribution for above edge")
                         count_df