Spaces:

molokhovdmitry
/

landmark_recognition

Running

App Files Files Community

KatriTaratuta commited on Dec 12, 2023

Commit

b404872

1 Parent(s): 7ca9a3b

getting pictures

Browse files

Former-commit-id: 40ff9addb9a2bad9c06d23d4c8eb49b53e61906e

Files changed (4) hide show

.gitignore +1 -0
picturedownloader/exampleThumb.py +23 -0
picturedownloader/main.py +42 -0
requirements.txt +7 -0

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ .idea/

picturedownloader/exampleThumb.py ADDED Viewed

	@@ -0,0 +1,23 @@

+import requests
+from bs4 import BeautifulSoup
+import os
+def save_images(save_dir, keywords):
+  os.makedirs(save_dir, exist_ok=True)
+  for keyword in keywords:
+      url = f"https://www.google.com/search?q={keyword}&tbm=isch"
+      res = requests.get(url)
+      soup = BeautifulSoup(res.text, "html.parser")
+      img_tags = soup.find_all("img")
+      for i, img in enumerate(img_tags):
+          try:
+              img_url = img["src"]
+              res = requests.get(img_url)
+              with open(f"{save_dir}/{keyword}{str(i).zfill(5)}.jpg", "wb") as f:
+                  f.write(res.content)
+          except:
+              continue
+keywords = ["cat"]
+save_dir = "train"
+save_images(save_dir, keywords)

picturedownloader/main.py ADDED Viewed

	@@ -0,0 +1,42 @@

+from icrawler.builtin import BingImageCrawler
+import os
+imageFolder = 'images'
+def download_images(imageFolder, query, limit):
+    imageFolder=os.path.join(imageFolder, query)
+    os.makedirs(name=imageFolder,
+                exist_ok=True)
+    google_crawler = BingImageCrawler(parser_threads=1,
+                                      downloader_threads=1,
+                                      storage={'root_dir': imageFolder})
+    # Parameters can be found in the icrawler documentation
+    # https://icrawler.readthedocs.io/en/latest/builtin.html
+    filters = dict(
+        type="photo",
+        size='large',
+        date="pastyear")
+    google_crawler.crawl(keyword=query,
+                         max_num=limit,
+                         filters=filters)
+    return os.listdir(imageFolder)
+# Задаем список достопримечательностей и количество изображений, которые нужно загрузить
+sights = [
+    "Кинотеатр Художественный на Арбате",
+    "Театр им. Вахтангова",
+    "Центральный Дом Актера на Арбате",
+    "Мемориальная квартира А.С. Пушкина на Арбате",
+    "Памятник Пушкину и Гончаровой на Арбате",
+    "Памятник Окуджаве на Арбате",
+    "Хард-рок кафе на Арбате",
+    "Дома-книжки на Новом Арбате"
+]
+num_images = 200
+for sight in sights:
+    print(f"Загрузка изображений достопримечательности '{sight}':")
+    image_paths=download_images(imageFolder, sight, num_images)
+    print(f"Загружено {len(image_paths)} изображений\n")

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+icrawler==0.6.7
+six==1.16.0
+Pillow
+bs4
+lxml
+requests
+requests