Spaces:

Hansimov
/

web-search-api

Running

App Files Files Community

Hansimov commited on Jan 6

Commit

ef3de03

•

1 Parent(s): d6015f4

:gem: [Feature] New SearchResultsExtractor: title, site, link, abstract

Browse files

Files changed (2) hide show

documents/__init__.py +0 -0
documents/search_results_extractor.py +49 -0

documents/__init__.py ADDED Viewed

File without changes

documents/search_results_extractor.py ADDED Viewed

	@@ -0,0 +1,49 @@

+from bs4 import BeautifulSoup
+from pathlib import Path
+class SearchResultsExtractor:
+    def __init__(self) -> None:
+        pass
+    def load_html(self, html_path):
+        with open(html_path, "r", encoding="utf-8") as f:
+            html = f.read()
+        self.soup = BeautifulSoup(html, "html.parser")
+    def extract_search_results(self):
+        search_result_elements = self.soup.find_all("div", class_="g")
+        for result in search_result_elements:
+            site = result.find("cite").find_previous("span").text
+            link = result.find("a")["href"]
+            title = result.find("h3").text
+            abstract_element = result.find("div", {"data-sncf": "1"})
+            if abstract_element is None:
+                abstract_element = result.find("div", class_="ITZIwc")
+            abstract = abstract_element.text.strip()
+            print(
+                f"{title}\n" f"  - {site}\n" f"  - {link}\n" f"  - {abstract}\n" f"\n"
+            )
+    def extract_related_questions(self):
+        related_questions = self.soup.find_all("div", class_="related-question-pair")
+        for question in related_questions:
+            print(question)
+            # print(question.find("a")["href"])
+            # print(question.find("a").text)
+    def extract(self, html_path):
+        self.load_html(html_path)
+        self.extract_search_results()
+if __name__ == "__main__":
+    html_path_root = Path(__file__).parents[1] / "files"
+    # html_filename = "python教程"
+    html_filename = "python_tutorials"
+    html_path = html_path_root / f"{html_filename}.html"
+    extractor = SearchResultsExtractor()
+    extractor.extract(html_path)