Spaces:

OzoneAsai
/

gallary2

Running

App Files Files Community

OzoneAsai commited on Sep 30

Commit

a590766

•

1 Parent(s): 8f02f25

Update scrape_images_worker.py

Browse files

Files changed (1) hide show

scrape_images_worker.py +41 -13

scrape_images_worker.py CHANGED Viewed

@@ -3,12 +3,9 @@ import re
 from playwright.sync_api import sync_playwright
 import requests
 import sys
 from PIL import Image, UnidentifiedImageError
-from io import Bytesimport os
-# Playwrightをインストールするコマンドの実行
-os.system("python3 -m playwright install")
 log_file = "app_log.txt"  # ログファイルのパス
@@ -19,7 +16,7 @@ import logging
 file_handler = logging.FileHandler(log_file, encoding='utf-8')
 # ログの設定
 logging.basicConfig(
-    level=logging.DEBUG,  # ログレベルをINFOに設定
     format='%(asctime)s - %(levelname)s - %(message)s',  # ログのフォーマットを指定
     handlers=[
         logging.StreamHandler(sys.stdout),  # 標準出力にログを出力
@@ -28,6 +25,27 @@ logging.basicConfig(
 )
 logger = logging.getLogger(__name__)
 # 安全なフォルダ名を生成する関数
 def generate_safe_folder_name(url):
     logger.info(f"Generating a safe folder name from URL: {url}")
@@ -51,7 +69,7 @@ def save_image_as_jpg(image_url, save_folder, image_name):
         logger.info(f"Successfully downloaded image: {image_url}")
     except requests.exceptions.RequestException as e:
         logger.error(f"Error occurred during image download: {e}")
-        return
     try:
         logger.info(f"Opening image from response content")
@@ -59,18 +77,20 @@ def save_image_as_jpg(image_url, save_folder, image_name):
         logger.info(f"Image successfully opened")
     except UnidentifiedImageError:
         logger.warning(f"Unidentified image file from URL: {image_url}. Skipping.")
-        return
     except Exception as e:
         logger.error(f"Error occurred while opening image: {e}")
-        return
     image_path = os.path.join(save_folder, image_name)
     try:
         logger.info(f"Converting image to JPEG and saving to {image_path}")
         image.convert("RGB").save(image_path, "JPEG", quality=80)
         logger.info(f"Image saved successfully: {image_path}")
     except Exception as e:
         logger.error(f"Error occurred while saving image: {e}")
 # 画像の再帰的取得
 def scrape_images_by_page(url, folder_name='scraped_images'):
@@ -81,9 +101,13 @@ def scrape_images_by_page(url, folder_name='scraped_images'):
     with sync_playwright() as p:
         logger.info(f"Launching Chromium browser in headless mode")
-        browser = p.chromium.launch(headless=True)  # ブラウザを非表示で起動
-        page = browser.new_page()
         logger.info(f"Accessing page: {url}")
         page.goto(url)
         page.wait_for_load_state('networkidle')
@@ -157,7 +181,11 @@ def scrape_images_by_page(url, folder_name='scraped_images'):
                         if image_url:
                             image_name = f'page_{str(i).zfill(5)}_img_{str(j + 1).zfill(5)}.jpg'
-                            save_image_as_jpg(image_url, folder_path, image_name)
                     except Exception as e:
                         logger.error(f"Error processing image {j + 1} on page {i}: {e}")
                         continue

 from playwright.sync_api import sync_playwright
 import requests
 import sys
+import subprocess
 from PIL import Image, UnidentifiedImageError
+from io import BytesIO
 log_file = "app_log.txt"  # ログファイルのパス
 file_handler = logging.FileHandler(log_file, encoding='utf-8')
 # ログの設定
 logging.basicConfig(
+    level=logging.DEBUG,  # ログレベルをDEBUGに設定
     format='%(asctime)s - %(levelname)s - %(message)s',  # ログのフォーマットを指定
     handlers=[
         logging.StreamHandler(sys.stdout),  # 標準出力にログを出力
 )
 logger = logging.getLogger(__name__)
+# コマンド実行結果をログに記録する関数
+def run_command(command):
+    logger.info(f"Running command: {command}")
+    try:
+        result = subprocess.run(command, shell=True, capture_output=True, text=True)
+        logger.info(f"Command output: {result.stdout}")
+        if result.stderr:
+            logger.error(f"Command error output: {result.stderr}")
+        return result.returncode
+    except Exception as e:
+        logger.error(f"Failed to run command '{command}': {e}")
+        return None
+# Playwrightのインストールを実行
+install_command = "python3 -m playwright install"
+if run_command(install_command) != 0:
+    logger.error("Playwright installation failed.")
+    sys.exit(1)
+else:
+    logger.info("Playwright installed successfully.")
 # 安全なフォルダ名を生成する関数
 def generate_safe_folder_name(url):
     logger.info(f"Generating a safe folder name from URL: {url}")
         logger.info(f"Successfully downloaded image: {image_url}")
     except requests.exceptions.RequestException as e:
         logger.error(f"Error occurred during image download: {e}")
+        return None
     try:
         logger.info(f"Opening image from response content")
         logger.info(f"Image successfully opened")
     except UnidentifiedImageError:
         logger.warning(f"Unidentified image file from URL: {image_url}. Skipping.")
+        return None
     except Exception as e:
         logger.error(f"Error occurred while opening image: {e}")
+        return None
     image_path = os.path.join(save_folder, image_name)
     try:
         logger.info(f"Converting image to JPEG and saving to {image_path}")
         image.convert("RGB").save(image_path, "JPEG", quality=80)
         logger.info(f"Image saved successfully: {image_path}")
+        return image_path
     except Exception as e:
         logger.error(f"Error occurred while saving image: {e}")
+        return None
 # 画像の再帰的取得
 def scrape_images_by_page(url, folder_name='scraped_images'):
     with sync_playwright() as p:
         logger.info(f"Launching Chromium browser in headless mode")
+        try:
+            browser = p.chromium.launch(headless=True)  # ブラウザを非表示で起動
+            page = browser.new_page()
+        except Exception as e:
+            logger.error(f"Failed to launch Chromium browser: {e}")
+            return
         logger.info(f"Accessing page: {url}")
         page.goto(url)
         page.wait_for_load_state('networkidle')
                         if image_url:
                             image_name = f'page_{str(i).zfill(5)}_img_{str(j + 1).zfill(5)}.jpg'
+                            saved_image_path = save_image_as_jpg(image_url, folder_path, image_name)
+                            if saved_image_path:
+                                logger.info(f"Image saved successfully at: {saved_image_path}")
+                            else:
+                                logger.error(f"Failed to save image {image_name} from page {i}")
                     except Exception as e:
                         logger.error(f"Error processing image {j + 1} on page {i}: {e}")
                         continue