Spaces:

OzoneAsai
/

gallary2

Running

App Files Files Community

OzoneAsai commited on Sep 30, 2024

Commit

babcb0b

verified ·

1 Parent(s): e453921

Update scrape_images_worker.py

Browse files

Files changed (1) hide show

scrape_images_worker.py +49 -45

scrape_images_worker.py CHANGED Viewed

@@ -5,7 +5,7 @@ import requests
 import sys
 from PIL import Image, UnidentifiedImageError
 from io import BytesIO
-os.systems("python3 -m playwright install")
 log_file = "app_log.txt"  # ログファイルのパス
 # ログフォーマットの定義
@@ -26,147 +26,151 @@ logger = logging.getLogger(__name__)
 # 安全なフォルダ名を生成する関数
 def generate_safe_folder_name(url):
-    # URLから安全なフォルダ名を生成（ファイル名に使えない文字を除去）
     safe_name = re.sub(r'[^a-zA-Z0-9_\-]', '_', url)
     return safe_name
 # 画像を保存する関数 (JPG 80%の品質で保存)
 def save_image_as_jpg(image_url, save_folder, image_name):
     if not os.path.exists(save_folder):
         os.makedirs(save_folder)
-        logger.info(f"フォルダを作成しました: {save_folder}")
     try:
         response = requests.get(image_url, timeout=10)
         response.raise_for_status()  # HTTPエラーが発生した場合例外を投げる
     except requests.exceptions.RequestException as e:
-        logger.error(f"画像のダウンロード中にエラーが発生しました: {e}")
         return
     try:
         image = Image.open(BytesIO(response.content))
     except UnidentifiedImageError:
-        logger.warning(f"未識別の画像ファイル: {image_url}. スキップします。")
         return
     except Exception as e:
-        logger.error(f"画像のオープン中にエラーが発生しました: {e}")
         return
-    # 保存時に JPG に変換し、品質80%で保存
     image_path = os.path.join(save_folder, image_name)
     try:
         image.convert("RGB").save(image_path, "JPEG", quality=80)
-        logger.info(f"画像を保存しました: {image_path}")
     except Exception as e:
-        logger.error(f"画像の保存中にエラーが発生しました: {e}")
 # 画像の再帰的取得
 def scrape_images_by_page(url, folder_name='scraped_images'):
-    # URLが"/"で終わっている場合、スラッシュを削除
     original_url = url
     url = url.rstrip('/')
-    logger.info(f"処理するURL: {url}")
     with sync_playwright() as p:
-        browser = p.chromium.launch(headless=True)  # ブラウザを表示して操作
         page = browser.new_page()
-        # 初期ページにアクセス
         page.goto(url)
-        logger.info(f"ページにアクセスしました: {url}")
-        # ページが完全に読み込まれるまで待機
         page.wait_for_load_state('networkidle')
-        logger.info("ページの読み込みが完了しました。")
         # lazy-loading属性を無効にするためのJavaScriptを挿入
         try:
             page.evaluate("""
                 document.querySelectorAll('img[loading="lazy"]').forEach(img => {
                     img.setAttribute('loading', 'eager');
                     img.src = img.src;  // 画像を強制的にリロード
                 });
             """)
-            logger.info("lazy-loadingを無効化しました。")
         except Exception as eval_error:
-            logger.warning(f"JavaScriptの評価中にエラーが発生しました: {eval_error}")
-        # フォルダ名を生成
         safe_folder_name = generate_safe_folder_name(url)
         folder_path = os.path.join(folder_name, safe_folder_name)
-        logger.info(f"保存先フォルダ: {folder_path}")
         # ページ数を取得
         try:
-            # ページ数が格納されているセレクタからテキストを取得
             page_count_selector = 'div.tag-container:nth-child(8) > span:nth-child(1) > a:nth-child(1) > span:nth-child(1)'
             page_count_text = page.locator(page_count_selector).text_content().strip()
             num_pages = int(re.search(r'\d+', page_count_text).group())
-            logger.info(f"セレクタ '{page_count_selector}' からページ数を取得: {num_pages}")
         except Exception as e:
-            logger.warning(f"セレクタ '{page_count_selector}' からページ数を取得できませんでした: {e}")
-            # セレクタが見つからない場合のフォールバック
             try:
                 fallback_selector = 'section.reader-bar:nth-child(2) > div:nth-child(2) > button:nth-child(3) > span:nth-child(3)'
                 page.wait_for_selector(fallback_selector, timeout=5000)
                 num_pages_text = page.locator(fallback_selector).text_content().strip()
                 num_pages = int(re.search(r'\d+', num_pages_text).group())
-                logger.info(f"セレクタ '{fallback_selector}' からページ数を取得: {num_pages}")
             except Exception as e2:
-                logger.error(f"ページ数の取得に失敗しました: {e2}")
-                num_pages = 1  # デフォルトで1ページとする
-        logger.info(f"総ページ数: {num_pages}")
         # 各ページにアクセスして画像を取得
         for i in range(1, num_pages + 1):
             page_url = f"{url}/{i}"
             page.goto(page_url)
-            logger.info(f"ページにアクセスしました: {page_url}")
-            # ページが完全に読み込まれるまで待機
             page.wait_for_load_state('networkidle')
-            logger.info(f"ページ {i} の読み込みが完了しました。")
             try:
-                # 画像を取得するセレクタ
                 img_selector = '#image-container > a > img'
                 img_elements = page.locator(img_selector)
                 img_count = img_elements.count()
-                logger.info(f"ページ {i} の画像数: {img_count}")
                 if img_count == 0:
-                    logger.warning(f"ページ {i} に画像が見つかりません。")
                     continue
                 for j in range(img_count):
                     try:
                         image_element = img_elements.nth(j)
                         image_url = image_element.get_attribute('src')
                         if not image_url:
-                            # data-srcなどに画像URLが格納されている場合
                             image_url = image_element.get_attribute('data-src')
-                        logger.info(f"取得した画像URL (ページ {i}, 画像 {j + 1}): {image_url}")
                         if image_url:
-                            # ファイル名にページ番号と画像番号を含め、位取りを適用
                             image_name = f'page_{str(i).zfill(5)}_img_{str(j + 1).zfill(5)}.jpg'
                             save_image_as_jpg(image_url, folder_path, image_name)
                     except Exception as e:
-                        logger.error(f"ページ {i}, 画像 {j + 1} の処理中にエラーが発生しました: {e}")
                         continue
             except Exception as e:
-                logger.error(f"ページ {i} の画像取得中にエラーが発生しました: {e}")
                 continue
         browser.close()
-        logger.info("ブラウザを閉じました。")
 if __name__ == "__main__":
     if len(sys.argv) < 2:
-        logger.error("使用方��: python scrape_images_worker.py <URL>")
         sys.exit(1)
-    url = sys.argv[1]  # コマンドライン引数でURLを受け取る
-    folder_name = 'scraped_images'  # デフォルトのフォルダ名
     scrape_images_by_page(url, folder_name)

 import sys
 from PIL import Image, UnidentifiedImageError
 from io import BytesIO
 log_file = "app_log.txt"  # ログファイルのパス
 # ログフォーマットの定義
 # 安全なフォルダ名を生成する関数
 def generate_safe_folder_name(url):
+    logger.info(f"Generating a safe folder name from URL: {url}")
     safe_name = re.sub(r'[^a-zA-Z0-9_\-]', '_', url)
+    logger.info(f"Generated folder name: {safe_name}")
     return safe_name
 # 画像を保存する関数 (JPG 80%の品質で保存)
 def save_image_as_jpg(image_url, save_folder, image_name):
+    logger.info(f"Saving image from {image_url} to folder: {save_folder} with name: {image_name}")
     if not os.path.exists(save_folder):
+        logger.info(f"Folder does not exist, creating new folder: {save_folder}")
         os.makedirs(save_folder)
+        logger.info(f"Folder created: {save_folder}")
     try:
+        logger.info(f"Downloading image from URL: {image_url}")
         response = requests.get(image_url, timeout=10)
         response.raise_for_status()  # HTTPエラーが発生した場合例外を投げる
+        logger.info(f"Successfully downloaded image: {image_url}")
     except requests.exceptions.RequestException as e:
+        logger.error(f"Error occurred during image download: {e}")
         return
     try:
+        logger.info(f"Opening image from response content")
         image = Image.open(BytesIO(response.content))
+        logger.info(f"Image successfully opened")
     except UnidentifiedImageError:
+        logger.warning(f"Unidentified image file from URL: {image_url}. Skipping.")
         return
     except Exception as e:
+        logger.error(f"Error occurred while opening image: {e}")
         return
     image_path = os.path.join(save_folder, image_name)
     try:
+        logger.info(f"Converting image to JPEG and saving to {image_path}")
         image.convert("RGB").save(image_path, "JPEG", quality=80)
+        logger.info(f"Image saved successfully: {image_path}")
     except Exception as e:
+        logger.error(f"Error occurred while saving image: {e}")
 # 画像の再帰的取得
 def scrape_images_by_page(url, folder_name='scraped_images'):
+    logger.info(f"Starting image scraping for URL: {url}")
     original_url = url
     url = url.rstrip('/')
+    logger.info(f"Processed URL for scraping: {url}")
     with sync_playwright() as p:
+        logger.info(f"Launching Chromium browser in headless mode")
+        browser = p.chromium.launch(headless=True)  # ブラウザを非表示で起動
         page = browser.new_page()
+        logger.info(f"Accessing page: {url}")
         page.goto(url)
         page.wait_for_load_state('networkidle')
+        logger.info(f"Page fully loaded: {url}")
         # lazy-loading属性を無効にするためのJavaScriptを挿入
         try:
+            logger.info(f"Disabling lazy-loading for images on the page")
             page.evaluate("""
                 document.querySelectorAll('img[loading="lazy"]').forEach(img => {
                     img.setAttribute('loading', 'eager');
                     img.src = img.src;  // 画像を強制的にリロード
                 });
             """)
+            logger.info(f"Lazy-loading disabled")
         except Exception as eval_error:
+            logger.warning(f"Error occurred during lazy-loading disablement: {eval_error}")
         safe_folder_name = generate_safe_folder_name(url)
         folder_path = os.path.join(folder_name, safe_folder_name)
+        logger.info(f"Images will be saved to: {folder_path}")
         # ページ数を取得
         try:
+            logger.info(f"Attempting to retrieve number of pages from the website")
             page_count_selector = 'div.tag-container:nth-child(8) > span:nth-child(1) > a:nth-child(1) > span:nth-child(1)'
             page_count_text = page.locator(page_count_selector).text_content().strip()
             num_pages = int(re.search(r'\d+', page_count_text).group())
+            logger.info(f"Number of pages found: {num_pages}")
         except Exception as e:
+            logger.warning(f"Failed to retrieve number of pages from the primary selector: {e}")
             try:
                 fallback_selector = 'section.reader-bar:nth-child(2) > div:nth-child(2) > button:nth-child(3) > span:nth-child(3)'
                 page.wait_for_selector(fallback_selector, timeout=5000)
                 num_pages_text = page.locator(fallback_selector).text_content().strip()
                 num_pages = int(re.search(r'\d+', num_pages_text).group())
+                logger.info(f"Number of pages found using fallback selector: {num_pages}")
             except Exception as e2:
+                logger.error(f"Failed to retrieve page count: {e2}. Defaulting to 1 page.")
+                num_pages = 1
+        logger.info(f"Starting to scrape {num_pages} pages")
         # 各ページにアクセスして画像を取得
         for i in range(1, num_pages + 1):
             page_url = f"{url}/{i}"
+            logger.info(f"Accessing page: {page_url}")
             page.goto(page_url)
             page.wait_for_load_state('networkidle')
+            logger.info(f"Page {i} fully loaded")
             try:
+                logger.info(f"Attempting to locate images on page {i}")
                 img_selector = '#image-container > a > img'
                 img_elements = page.locator(img_selector)
                 img_count = img_elements.count()
+                logger.info(f"Found {img_count} images on page {i}")
                 if img_count == 0:
+                    logger.warning(f"No images found on page {i}")
                     continue
                 for j in range(img_count):
                     try:
+                        logger.info(f"Processing image {j + 1} on page {i}")
                         image_element = img_elements.nth(j)
                         image_url = image_element.get_attribute('src')
                         if not image_url:
                             image_url = image_element.get_attribute('data-src')
+                        logger.info(f"Image URL found: {image_url}")
                         if image_url:
                             image_name = f'page_{str(i).zfill(5)}_img_{str(j + 1).zfill(5)}.jpg'
                             save_image_as_jpg(image_url, folder_path, image_name)
                     except Exception as e:
+                        logger.error(f"Error processing image {j + 1} on page {i}: {e}")
                         continue
             except Exception as e:
+                logger.error(f"Error occurred while retrieving images on page {i}: {e}")
                 continue
         browser.close()
+        logger.info(f"Browser closed")
 if __name__ == "__main__":
     if len(sys.argv) < 2:
+        logger.error("Usage: python scrape_images_worker.py <URL>")
         sys.exit(1)
+    url = sys.argv[1]
+    folder_name = 'scraped_images'
+    logger.info(f"Script started with URL: {url}")
     scrape_images_by_page(url, folder_name)
+    logger.info("Script completed")