web-crawling

Running

pvanand commited on Sep 30, 2024

Commit

2c451af

verified ·

1 Parent(s): e724620

Update main.py

Files changed (1) hide show

main.py CHANGED Viewed

@@ -1,13 +1,11 @@
 import os
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel, Field
-from typing import List
 from crawl4ai import AsyncWebCrawler
-from crawl4ai.extraction_strategy import LLMExtractionStrategy
 import json
-from dotenv import load_dotenv
-load_dotenv()  # Load environment variables from .env file
 app = FastAPI()
@@ -30,6 +28,12 @@ async def crawl(input: CrawlerInput):
     if len(input.columns) != len(input.descriptions):
         raise HTTPException(status_code=400, detail="Number of columns must match number of descriptions")
     async with AsyncWebCrawler(verbose=True) as crawler:
         result = await crawler.arun(
             url=input.url,
@@ -38,7 +42,7 @@ async def crawl(input: CrawlerInput):
                 api_token=os.getenv('OPENAI_API_KEY'),
                 extraction_type="schema",
                 verbose=True,
-                instruction=f"Extract the following information: {', '.join(input.columns)}. Descriptions: {', '.join(input.descriptions)}"
             )
         )
@@ -52,4 +56,4 @@ async def test():
 if __name__ == "__main__":
     import uvicorn
-    uvicorn.run(app, host="0.0.0.0", port=8000, loop="asyncio")

 import os
+import asyncio
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel, Field
+from typing import List, Optional
 from crawl4ai import AsyncWebCrawler
+from crawl4ai.extraction_strategy import JsonCssExtractionStrategy, LLMExtractionStrategy
 import json
 app = FastAPI()
     if len(input.columns) != len(input.descriptions):
         raise HTTPException(status_code=400, detail="Number of columns must match number of descriptions")
+    # Create a dictionary with columns as keys and descriptions as values
+    extraction_info = {col: desc for col, desc in zip(input.columns, input.descriptions)}
+    # Convert the dictionary to a JSON string
+    instruction = f"Extract the following information: {json.dumps(extraction_info)}"
     async with AsyncWebCrawler(verbose=True) as crawler:
         result = await crawler.arun(
             url=input.url,
                 api_token=os.getenv('OPENAI_API_KEY'),
                 extraction_type="schema",
                 verbose=True,
+                instruction=instruction
             )
         )
 if __name__ == "__main__":
     import uvicorn
+    uvicorn.run(app, host="0.0.0.0", port=8000)