JSON-Crawl

Running

App Files Files Community

Omnibus commited on Feb 27, 2024

Commit

a57fdc7

verified ·

1 Parent(s): 6c531ab

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -14

app.py CHANGED Viewed

@@ -17,22 +17,24 @@ def link_find(url):
         #out.append(rawp)
         #out.append("HTML fragments: ")
         node1 = {"URL":url,"TITLE":soup.title,"STRING":soup.description,"TEXT":rawt,"TREE":[]}
         q=("a","p","span","content","article")
         for p in soup.find_all("a"):
             node1['TREE'].append({"URL":p.get('href'),"TITLE":p.get('title'),"STRING":p.string,"TEXT":"","TREE":[]})
             #out.append({"URL":p.get('href'),"TITLE":p.get('title'),"STRING":p.string,"TEXT":"","TREE":[]})
     else:
         print("NO")
         pass
-    return node1
 #https://huggingface.co/spaces/Omnibus/crawl
 def sitemap(url,level):
     uri=""
     if url != "" and url != None:
-        link1=link_find(url)
         if level >=2:
             for i,ea in enumerate(link1['TREE']):
                 print(ea)
@@ -43,9 +45,10 @@ def sitemap(url,level):
                         uri3=uri2.split("/")[0]
                         uri=f'{uri1}//{uri3}'
                         print(uri)
-                    out_list=link_find(f"{uri}{ea['URL']}")
-                    #link1['TREE'][i]=out_list
-                    link1['TREE'].append(out_list)
                     if level>=3:
                         for n,na in enumerate(link1['TREE'][i]['TREE']):
@@ -57,14 +60,15 @@ def sitemap(url,level):
                                     uri33=uri22.split("/")[0]
                                     uri0=f'{uri11}//{uri33}'
                                     print(uri0)
-                                out_list1=link_find(f"{uri0}{na['URL']}")
-                                #link1['TREE'][i]['TREE'][n]=out_list1
-                                link1['TREE'][i]['TREE'].append(out_list1)
                             except Exception as e:
                                 print (e)
                 except Exception as e:
                     print (e)
-    return link1
@@ -103,9 +107,13 @@ def sitemap_OG(url,level):
     return link1
 with gr.Blocks() as app:
     with gr.Row():
-        inp=gr.Textbox(label="URL")
-        level=gr.Slider(minimum=1,maximum=3,step=1,value=2)
-    btn=gr.Button()
-    outp=gr.JSON()
-    btn.click(sitemap,[inp,level],outp)
 app.launch()

         #out.append(rawp)
         #out.append("HTML fragments: ")
         node1 = {"URL":url,"TITLE":soup.title,"STRING":soup.description,"TEXT":rawt,"TREE":[]}
+        node2 = {"URL":url,"TREE":[]}
         q=("a","p","span","content","article")
         for p in soup.find_all("a"):
             node1['TREE'].append({"URL":p.get('href'),"TITLE":p.get('title'),"STRING":p.string,"TEXT":"","TREE":[]})
+            node2['TREE'].append({"URL":p.get('href'),"TREE":[]})
             #out.append({"URL":p.get('href'),"TITLE":p.get('title'),"STRING":p.string,"TEXT":"","TREE":[]})
     else:
         print("NO")
         pass
+    return node1,node2
 #https://huggingface.co/spaces/Omnibus/crawl
 def sitemap(url,level):
     uri=""
     if url != "" and url != None:
+        link1,link2=link_find(url)
         if level >=2:
             for i,ea in enumerate(link1['TREE']):
                 print(ea)
                         uri3=uri2.split("/")[0]
                         uri=f'{uri1}//{uri3}'
                         print(uri)
+                    out_list1,out_list2=link_find(f"{uri}{ea['URL']}")
+                    link1['TREE'][i]=out_list1
+                    link2['TREE'][i]=out_list2
+                    #link1['TREE'].append(out_list)
                     if level>=3:
                         for n,na in enumerate(link1['TREE'][i]['TREE']):
                                     uri33=uri22.split("/")[0]
                                     uri0=f'{uri11}//{uri33}'
                                     print(uri0)
+                                out_list1,out_list2=link_find(f"{uri0}{na['URL']}")
+                                link1['TREE'][i]['TREE'][n]=out_list1
+                                link2['TREE'][i]['TREE'][n]=out_list2
+                                #link1['TREE'][i]['TREE'].append(out_list1)
                             except Exception as e:
                                 print (e)
                 except Exception as e:
                     print (e)
+    return link1,link2
     return link1
 with gr.Blocks() as app:
     with gr.Row():
+        with gr.Column(scale=3):
+            with gr.Row():
+                inp=gr.Textbox(label="URL")
+                level=gr.Slider(minimum=1,maximum=3,step=1,value=2)
+            btn=gr.Button()
+            outp=gr.JSON()
+        with gr.Column(scale=1):
+            outmap=gr.JSON()
+    btn.click(sitemap,[inp,level],[outp,outmap])
 app.launch()