Spaces:

Sazuppy
/

yandex_project

Sleeping

App Files Files Community

Sazuppy commited on Jan 25, 2024

Commit

540fe64

verified ·

1 Parent(s): 90a82ea

Upload 32 files

Browse files

Files changed (32) hide show

.devcontainer/devcontainer.json +33 -0
Home.py +71 -0
image/Frame.png +0 -0
models/booking_cancel_pred.pkl +3 -0
models/car_cost_pred.pkl +3 -0
models/clients_churn.pkl +3 -0
models/ohe_booking_cancel_pred.pkl +3 -0
models/ohe_car_cost_pred.pkl +3 -0
models/ohe_clients_churn.pkl +3 -0
models/ohe_star_temperature_pred.pkl +3 -0
models/power_forecasting.pkl +3 -0
models/scaler_booking_cancel_pred.pkl +3 -0
models/scaler_car_cost_pred.pkl +3 -0
models/scaler_clients_churn.pkl +3 -0
models/scaler_power_forecasting.pkl +3 -0
models/scaler_star_temperature_pred.pkl +3 -0
models/star_temperature_pred.pkl +3 -0
models/tariff_recommendation.pkl +3 -0
models/taxi.csv +0 -0
models/taxi_orders_prediction.pkl +3 -0
models/toxic_comments_bert.pkl +3 -0
pages/10_power_forecasting.py +137 -0
pages/1_tariff_recommendation.py +72 -0
pages/2_clients_churn.py +114 -0
pages/3_booking_cancel_pred.py +202 -0
pages/4_toxic_comments.py +106 -0
pages/5_star_temperature.py +147 -0
pages/6_sql_stackoverflow.py +191 -0
pages/7_car_cost_pred.py +148 -0
pages/8_accident_prediction.py +145 -0
pages/9_taxi_orders_prediction.py +85 -0
requirements.txt +12 -0

.devcontainer/devcontainer.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "name": "Python 3",
+  // Or use a Dockerfile or Docker Compose file. More info: https://containers.dev/guide/dockerfile
+  "image": "mcr.microsoft.com/devcontainers/python:1-3.11-bullseye",
+  "customizations": {
+    "codespaces": {
+      "openFiles": [
+        "README.md",
+        "project_1/Hello.py"
+      ]
+    },
+    "vscode": {
+      "settings": {},
+      "extensions": [
+        "ms-python.python",
+        "ms-python.vscode-pylance"
+      ]
+    }
+  },
+  "updateContentCommand": "[ -f packages.txt ] && sudo apt update && sudo apt upgrade -y && sudo xargs apt install -y <packages.txt; [ -f requirements.txt ] && pip3 install --user -r requirements.txt; pip3 install --user streamlit; echo '✅ Packages installed and Requirements met'",
+  "postAttachCommand": {
+    "server": "streamlit run project_1/Hello.py --server.enableCORS false --server.enableXsrfProtection false"
+  },
+  "portsAttributes": {
+    "8501": {
+      "label": "Application",
+      "onAutoForward": "openPreview"
+    }
+  },
+  "forwardPorts": [
+    8501
+  ]
+}

Home.py ADDED Viewed

	@@ -0,0 +1,71 @@

+import streamlit as st
+from pathlib import Path
+st.set_page_config(page_title="Главная страница")
+from st_pages import Page, show_pages
+show_pages(
+    [
+        Page("Home.py", "Главная страница", "🏠"),
+        Page("pages/1_tariff_recommendation.py", "Рекомендация тарифа", ":receipt:"),
+        Page("pages/2_clients_churn.py", "Отток клиентов «Бета-Банка»", ":classical_building:"),
+        Page("pages/3_booking_cancel_pred.py", "Прогнозирование оттока клиентов в сети отелей «Как в гостях»", ":house_buildings:"),
+        Page("pages/4_toxic_comments.py", "Выявление негативных комментариев с BERT", ":female-student:"),
+        Page("pages/5_star_temperature.py", "Прогнозирование температуры звезды", ":star:"),
+        Page("pages/6_sql_stackoverflow.py", "Анализ данных StackOverflow", ":page_facing_up:"),
+        Page("pages/7_car_cost_pred.py", "Определение стоимости автомобилей", ":car:"),
+        Page("pages/8_accident_prediction.py", "Разработка модели для оценки ДТП", ":rotating_light:"),
+        Page("pages/9_taxi_orders_prediction.py", "Прогнозирование заказов такси", ":taxi:"),
+        Page("pages/10_power_forecasting.py", "Потребление электроэнергии производством", ":factory:")
+    ]
+    )
+st.write("## Демонстрационный проект на базе Streamlit 👋")
+st.markdown(
+    """
+    **О себе:** Меня зовут Махнев Андрей, и я являюсь начинающим специалистом в области Data Science. Начал свой путь с курсов, изучая основы языка Python:
+    - [Питонтьютор](https://pythontutor.ru/)
+    - ["Поколение Python": курс для начинающих](https://stepik.org/course/58852/promo)
+    - ["Поколение Python": курс для продвинутых](https://stepik.org/course/68343/promo)
+    - ["Поколение Python": курс для профессионалов](https://stepik.org/course/82541/promo)
+    - [SQL Academy](https://sql-academy.org/ru)
+    Спустя время определился с выбором направления и прошел курс:
+    - [Яндекс Практикум (2022) по направлению Data Science Plus](https://practicum.yandex.ru/data-scientist-plus/)
+    По прошествия обучения хочу продемонстрировать результаты в виде самостоятельного проекта на базе [Streamlit](https://streamlit.io/) для наглядной демонстрации работы моделей машинного обучения, которые созданы на основе учебных проектов в процессе
+    обучения на курсах Яндекс Практикум. [Ссылка мой на профиль с проектами на GitHub](https://github.com/Sazuppy/yandex_project)
+    """
+    )
+st.header("Технологии")
+st.markdown(
+    """
+    Технологии которые были мною изучены в процессе обучения и применены в данном проекте и проектах Яндекс Практикум:
+    - **Streamlit:** Создание визуальных интерфейсов для демонстрации результатов моих проектов.
+    - **Keras и TensorFlow:** Работа с нейронными сетями и глубоким обучением.
+    - **scikit-learn и PyTorch:** Применение различных алгоритмов машинного обучения и глубокого обучения.
+    - **torchvision:** Работа с изображениями и компьютерным зрением в экосистеме PyTorch.
+    - **Seaborn:** Визуализация данных с использованием стильных и информативных графиков.
+    - **scipy:** Использование для научных и технических вычислений.
+    - **PostgreSQL:** Работа с базами данных для хранения и обработки данных.
+    - **Pandas и Numpy:** Обработка и анализ данных.
+    - **Matplotlib:** Визуализация данных и результатов.
+    - **Transformers:** Применение в обработке естественного языка и обучении с использованием трансформерных моделей.
+    - **Apache Spark и Hadoop:** Обработка больших объемов данных и распределенные в��числения.
+    """
+    )
+st.header("Проект по компьютерному зрению")
+st.markdown(
+    """
+    Дополнительно, я представляю проект, посвященный компьютерному зрению, который был разработан на основе учебного проекта в рамках обучения на платформе Яндекс Практикум.
+    **Определение возраста человека по фотографии:**
+    Этот проект позволяет определить возраст человека по предоставленной фотографии. Интерактивный интерфейс проекта доступен по [ссылке](https://age-determination.streamlit.app/).
+    Здесь я применял навыки обработки изображений, использовал библиотеки Keras и TensorFlow для построения модели, способной анализировать и предсказывать возраст объекта на фотографии.
+    """
+    )

image/Frame.png ADDED Viewed

models/booking_cancel_pred.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d1a7574609b847aec6b1a347bee88402a798337f5829c234df4e9df16dffd41
+size 68823

models/car_cost_pred.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80be2229d21bcaf2da8592c92ab3570a96e247fea49997f8852af785b9a17885
+size 8295711

models/clients_churn.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f452d3ece8e1438a1a718657a0db14bcad468d59e923aec7b1a64c31633824db
+size 5181683

models/ohe_booking_cancel_pred.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:124f0d95b09462eed177539952e34f55e30549360a9f12073bb932353e977103
+size 984

models/ohe_car_cost_pred.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61950fd47913fc9702dbfba13f2be48b0593c853870518a8c45ca0390279e016
+size 3444

models/ohe_clients_churn.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:397342064e8cf7ce466870d6f17237620e3aadbeb4e6c7b9999706a9f705e95e
+size 653

models/ohe_star_temperature_pred.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad47df9ea186609a43a3829e4bbf2d9d11264699e88e734c0b93198266022682
+size 844

models/power_forecasting.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:703543a7a672a6ce96c16153bc40a25a0471acab5c7e993a2d445b3aaeb9b92a
+size 5294943

models/scaler_booking_cancel_pred.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cebbc6f32acb1cf51a280cb88fafabbaf814f9a64ca536205fa3a276cf6ccaa
+size 1372

models/scaler_car_cost_pred.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c8a3e358f1b674163101927104ffac360714045890b18fc0cd4cf56388047db
+size 647

models/scaler_clients_churn.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f5441a5afc62fe300a9fe251bf38711f29d6e8576658a8095d8e4cff84b2895
+size 757

models/scaler_power_forecasting.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e67b40558f05cd79d9333334a37dcb9fe8d65ae64c84ebc34fcc55515f78863
+size 984

models/scaler_star_temperature_pred.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b39f4edfa0d62aa7d066458831085e5e8566ef6a78f5a1d77c3f9b6870af5181
+size 646

models/star_temperature_pred.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bb0d577d5b8db0cd277db496d4eaa3a3fd454e4d39665e39168afcb740c7197
+size 2451028

models/tariff_recommendation.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77d6bb70e01a95b663005f3c27e9b9fccf7e7b6e9c18f4edbf30c8df71b82ade
+size 4260748

models/taxi.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

models/taxi_orders_prediction.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9bb2fe04bf59dc58968d4dc35e03590a3d419c9a00e632e556dd0b49aa958100
+size 1091095

models/toxic_comments_bert.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb212aafced3aff3a3333f67443225653c04774a02d3250955b7bc8bd59df3f6
+size 370126

pages/10_power_forecasting.py ADDED Viewed

	@@ -0,0 +1,137 @@

+import streamlit as st
+import numpy as np
+import pandas as pd
+import pickle
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.preprocessing import StandardScaler, OneHotEncoder
+st.set_page_config(page_title="# Оптимизация производственных расходов металлургического комбината.")
+st.markdown('# Оптимизация производственных расходов металлургического комбината.')
+with st.expander("Описание проекта"):
+    st.write("""
+        Для оптимизации производственных расходов, металлургический комбинат решил уменьшить потребление электроэнергии на этапе обработки стали.
+        Для этого нужно контролировать температуру сплава.
+        Задача — построить модель, которая будет её предсказывать, заказчик хочет использовать разработанную модель для имитации технологического процесса.
+    """)
+with st.expander("Описание процесса обработки"):
+    st.write("""
+        Сталь обрабатывают в металлическом ковше вместимостью около 100 тонн. Чтобы ковш выдерживал высокие температуры, изнутри его облицовывают огнеупорным кирпичом. Расплавленную сталь заливают в ковш и подогревают до нужной температуры графитовыми электродами. Они установлены на крышке ковша.
+Сначала происходит десульфурация — из стали выводят серу и корректируют её химический состав добавлением примесей. Затем сталь легируют — добавляют в неё куски сплава из бункера для сыпучих материалов или порошковую проволоку через специальный трайб-аппарат.
+Прежде чем в первый раз ввести легирующие добавки, специалисты производят химический анализ стали и измеряют её температуру. Потом температуру на несколько минут повышают, уже после этого добавляют легирующие материалы и продувают сталь инертным газом, чтобы перемешать, а затем снова проводят измерения. Такой цикл повторяется до тех пор, пока не будут достигнуты нужный химический состав стали и оптимальная температура плавки.
+Дальше расплавленная сталь отправляется на доводку металла или поступает в машину непрерывной разливки. Оттуда готовый продукт выходит в виде заготовок-слябов (англ. slab, «плита»).
+    """)
+with st.expander("Описание данных"):
+    st.write("""
+        Данные хранятся в базе данных PostgreSQL. Она состоит из нескольких таблиц:
+        - steel.data_arc — данные об электродах;
+        - steel.data_bulk — данные об объёме сыпучих материалов;
+        - steel.data_bulk_time — данные о времени подачи сыпучих материалов;
+        - steel.data_gas — данные о продувке сплава газом;
+        - steel.data_temp — данные об измерениях температуры;
+        - steel.data_wire — данные об объёме проволочных материалов;
+        - steel.data_wire_time — данные о времени подачи проволочных материалов.
+        Таблица steel.data_arc:
+        - key — номер партии;
+        - BeginHeat — время начала нагрева;
+        - EndHeat — время окончания нагрева;
+        - ActivePower — значение активной мощности;
+        - ReactivePower — значение реактивной мощности.
+        Таблица steel.data_bulk:
+        - key — номер партии;
+        - Bulk1 … Bulk15 — объём подаваемого материала.
+        Таблица steel.data_bulk_time:
+        - key — номер партии;
+        - Bulk1 … Bulk15 — время подачи материала.
+        Таблица steel.data_gas:
+        - key — номер партии;
+        - gas — объём подаваемого газа.
+        Таблица steel.data_temp:
+        - key — номер партии;
+        - MesaureTime — время замера;
+        - Temperature — значение температуры.
+        Таблица steel.data_wire:
+        - key — номер партии;
+        - Wire1 … Wire15 — объём подаваемых проволочных материалов.
+        Таблица steel.data_wire_time:
+       -  key — номер партии;
+        - Wire1 … Wire15 — время подачи проволочных материалов.
+        Во всех файлах столбец key содержит номер партии. В таблицах может быть несколько строк с одинаковым значением key: они соответствуют разным итерациям обработки.
+    """)
+st.sidebar.header("Признаки для модели машинного обучения")
+def changes(df):
+    pass
+def user_input_features():
+    gas = st.sidebar.slider('объём подаваемого газа на продувку, м3/ч', 0, 100, 10)
+    temp_first = st.sidebar.slider('значение температуры сплава первого замера, С', 1500, 1680, 1580)
+    count = st.sidebar.slider('количество замеров температуры', 1, 20, 3)
+    measure_time = st.sidebar.slider('длительность замера, с', 10, 2000, 80)
+    Bulk_3 = st.sidebar.slider('объём подаваемого материала', 0, 450, 100)
+    Bulk_4 = st.sidebar.slider('объём подаваемого материала', 0, 300, 100)
+    Bulk_12 = st.sidebar.slider('объём подаваемого материала', 0, 2000, 500)
+    Bulk_14 = st.sidebar.slider('объём подаваемого материала', 0, 650, 300)
+    Bulk_15 = st.sidebar.slider('объём подаваемого материала', 0, 350, 100)
+    Wire_1 = st.sidebar.slider('объём подаваемых проволочных материалов', 0.0, 22.0, 10.0)
+    Wire_2 = st.sidebar.slider('объём подаваемых проволочных материалов', 0, 350, 100)
+    full_power = st.sidebar.slider('полная мощность', 0.25, 21.5, 10.5)
+    power_coef = st.sidebar.slider('коэффициент мощности', 0.50, 0.90, 0.60)
+    data = {'gas': gas,
+            'temp_first': temp_first,
+            'count_x': count,
+            'measure_time': measure_time,
+            'Bulk 3': Bulk_3,
+            'Bulk 4': Bulk_4,
+            'Bulk 12': Bulk_12,
+            'Bulk 14': Bulk_14,
+            'Bulk 15': Bulk_15,
+            'Wire 1': Wire_1,
+            'Wire 2': Wire_2,
+            'full_power': full_power,
+            'power_coef': power_coef,
+            }
+    features = pd.DataFrame(data, index=[0])
+    return features
+df = user_input_features()
+df = df.sort_index(axis=1)
+st.subheader('Таблица с введенными вами параметрами:')
+st.write(df)
+def preprocessing_data(df, scaler):
+    df = scaler.transform(df)
+    return pd.DataFrame(df, index=[0])
+@st.cache_resource
+def get_model():
+    load_model = pickle.load(open('models/power_forecasting.pkl', 'rb'))
+    scaler_model = pickle.load(open('models/scaler_power_forecasting.pkl', 'rb'))
+    return load_model, scaler_model
+model, sc_model = get_model()
+df_new = preprocessing_data(df, sc_model)
+prediction = model.predict(df_new)
+st.subheader('Температура сплава')
+rounded_prediction = np.around(prediction)
+st.write(str(rounded_prediction.item()))

pages/1_tariff_recommendation.py ADDED Viewed

	@@ -0,0 +1,72 @@

+import streamlit as st
+import time
+import numpy as np
+import pandas as pd
+import pickle
+from sklearn.ensemble import RandomForestClassifier
+st.set_page_config(page_title="Рекомендация тарифов")
+st.markdown('# Рекомендация тарифов')
+with st.expander("Описание проекта:"):
+    st.write(
+        """Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами.
+        Задача состояла в построении системы, способной проанализировать поведение клиентов
+        - пользователей архивных тарифов и предложить пользователям новый тариф: «Смарт» или «Ультра».
+        Была построена модель (RandomForestClassifier) для задачи классификации, которая выберает подходящий
+        тариф с максимально большим значением accuracy (доля правильных ответов).
+        """)
+with st.expander("Описание данных:"):
+    st.write("""
+        Описание данных на которых можель была обучена:
+        * сalls — количество звонков,
+        * minutes — суммарная длительность звонков в минутах,
+        * messages — количество sms-сообщений,
+        * mb_used — израсходованный интернет-трафик в Мб,
+        * is_ultra — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).
+        """
+    )
+st.sidebar.header("Признаки для модели машинного обучения")
+def user_input_features():
+    calls = st.sidebar.slider('Количество звонков', 0, 500, 60)
+    minutes = st.sidebar.slider('Количество потраченных минут', 0, 3000, 400)
+    messages = st.sidebar.slider('Количество sms-сообщений', 0, 500, 30)
+    mb_used = st.sidebar.slider('Количество потраченного интернет-трафика, Мб', 0, 70000, 17000)
+    data = {'calls': calls,
+            'minutes': minutes,
+            'messages': messages,
+            'mb_used': mb_used}
+    features = pd.DataFrame(data, index=[0])
+    return features
+df = user_input_features()
+st.subheader('Таблица с введенными вами параметрами:')
+st.write(df)
+@st.cache_resource
+def get_model():
+    load_model = pickle.load(open('models/tariff_recommendation.pkl', 'rb'))
+    return load_model
+model = get_model()
+prediction = model.predict(df)
+prediction_proba = model.predict_proba(df)
+st.subheader('Рекомендация')
+tariff = np.array(['Smart','Ultra'])
+st.write(tariff[prediction])
+st.subheader('Вероятность рекомендации')
+st.write(prediction_proba)

pages/2_clients_churn.py ADDED Viewed

	@@ -0,0 +1,114 @@

+import streamlit as st
+import numpy as np
+import pandas as pd
+import pickle
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.preprocessing import StandardScaler, OneHotEncoder
+st.set_page_config(page_title="# Отток клиентов «Бета-Банка»")
+st.markdown('# Отток клиентов «Бета-Банка»')
+with st.expander("Описание проекта:"):
+    st.write(
+        """Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.
+    Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.
+    Постройте модель с предельно большим значением *F1*-меры. Чтобы сдать проект успешно, нужно довести метрику до 0.59. Проверьте *F1*-меру на тестовой выборке самостоятельно.
+    Дополнительно измеряйте *AUC-ROC*, сравнивайте её значение с *F1*-мерой.
+    Источник данных: [https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling](https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling)
+    """)
+with st.expander("Описание данных:"):
+    st.write("""
+        Признаки:
+    - CreditScore — кредитный рейтинг
+    - Geography — страна проживания
+    - Gender — пол
+    - Age — возраст
+    - Tenure — сколько лет человек является клиентом банка
+    - Balance — баланс на счёте
+    - NumOfProducts — количество продуктов банка, используемых клиентом
+    - HasCrCard — наличие кредитной карты
+    - IsActiveMember — активность клиента
+    - EstimatedSalary — предполагаемая зарплата
+    Целевой признак:
+    - Exited — факт ухода клиента
+        """
+    )
+st.sidebar.header("Признаки для модели машинного обучения")
+def user_input_features():
+    credit_score = st.sidebar.slider('Кредитный рейтинг', 350, 850, 500)
+    geography = st.sidebar.selectbox('Страна проживания', ('France', 'Spain', 'Germany'))
+    gender = st.sidebar.selectbox('Пол', ('Female', 'Male'))
+    age = st.sidebar.slider('Возраст', 18, 92, 25)
+    tenure = st.sidebar.slider('Сколько лет человек является клиентом банка', 0, 10, 7)
+    balance = st.sidebar.slider('Баланс на счёте', 0, 300000, 20000)
+    num_of_products = st.sidebar.slider('Количество продуктов банка, используемых клиентом', 1, 4, 1)
+    has_cr_card = st.sidebar.selectbox('Наличие кредитной карты', ('Yes', 'No'))
+    is_active_member = st.sidebar.selectbox('Активность клиента', ('Yes', 'No'))
+    estimated_salary = st.sidebar.slider('Предполагаемая зарплата', 0, 200000, 10000)
+    data = {'credit_score': credit_score,
+            'geography': geography,
+            'gender': gender,
+            'age': age,
+            'tenure': tenure,
+            'balance': balance,
+            'num_of_products': num_of_products,
+            'has_cr_card': has_cr_card,
+            'is_active_member': is_active_member,
+            'estimated_salary': estimated_salary}
+    features = pd.DataFrame(data, index=[0])
+    return features
+df = user_input_features()
+st.subheader('Таблица с введенными вами параметрами:')
+st.write(df)
+def pre_category(data):
+    if data == "Yes":
+        return 1
+    else:
+        return 0
+def preprocessing_data(df, scaler, ohe):
+    df['has_cr_card'] = df['has_cr_card'].apply(pre_category)
+    df['is_active_member'] = df['is_active_member'].apply(pre_category)
+    numeric = ['credit_score', 'age', 'tenure', 'balance', 'num_of_products', 'estimated_salary']
+    categorical = ['geography', 'gender']
+    df[numeric] = scaler.transform(df[numeric])
+    tmp = pd.DataFrame(ohe.transform(df[categorical]).toarray(),
+                                   columns=ohe.get_feature_names_out(),
+                                   index=df.index)
+    df.drop(categorical, axis=1, inplace=True)
+    df = df.join(tmp)
+    return pd.DataFrame(df, index=[0])
+@st.cache_resource
+def get_model():
+    load_model = pickle.load(open('models/clients_churn.pkl', 'rb'))
+    ohe_model = pickle.load(open('models/ohe_clients_churn.pkl', 'rb'))
+    scaler_model = pickle.load(open('models/scaler_clients_churn.pkl', 'rb'))
+    return load_model, scaler_model, ohe_model
+model, sc_model, ohe_model = get_model()
+df_new = preprocessing_data(df, sc_model, ohe_model)
+prediction = model.predict(df_new)
+prediction_proba = model.predict_proba(df_new)
+st.subheader('Рекомендация')
+exited = np.array(['Клиент вероятно уйдет','Клиент вероятно останется'])
+st.write(exited[prediction])
+st.subheader('Вероятность рекомендации')
+st.write(prediction_proba)

pages/3_booking_cancel_pred.py ADDED Viewed

	@@ -0,0 +1,202 @@

+import streamlit as st
+import numpy as np
+import pandas as pd
+import pickle
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.preprocessing import StandardScaler, OneHotEncoder
+import datetime
+st.set_page_config(page_title="# Прогнозирование оттока клиентов в сети отелей «Как в гостях»")
+st.markdown('# Прогнозирование оттока клиентов в сети отелей «Как в гостях»')
+with st.expander("Описание проекта"):
+    st.write(
+        """Заказчик этого исследования — сеть отелей «Как в гостях».
+Чтобы привлечь клиентов, эта сеть отелей добавила на свой сайт возможность забронировать номер без предоплаты.
+Однако если клиент отменял бронирование, то компания терпела убытки. Сотрудники отеля могли, например, закупить продукты к приезду гостя
+или просто не успеть найти другого клиента.
+Чтобы решить эту проблему, вам нужно разработать систему, которая предсказывает отказ от брони. Если модель покажет,
+что бронь будет отменена, то клиенту предлагается внести депозит. Размер депозита — 80% от стоимости номера за одни сутки и затрат на разовую уборку.
+Деньги будут списаны со счёта клиента, если он всё же отменит бронь.
+Бизнес-метрика и другие данные:
+- Основная бизнес-метрика для любой сети отелей — её прибыль.
+Прибыль отеля — это разница между стоимостью номера за все ночи и затраты на обслуживание: как при подготовке номера, так и при проживании постояльца.
+В отеле есть несколько типов номеров. В зависимости от типа номера назначается стоимость за одну ночь.
+Есть также затраты на уборку. Если клиент снял номер надолго, то убираются каждые два дня.
+Стоимость номеров отеля:
+- категория A: за ночь — 1 000, разовое обслуживание — 400;
+- категория B: за ночь — 800, разовое обслуживание — 350;
+- категория C: за ночь — 600, разовое обслуживание — 350;
+- категория D: за ночь — 550, разовое обслуживание — 150;
+- категория E: за ночь — 500, разовое обслуживание — 150;
+- категория F: за ночь — 450, разовое обслуживание — 150;
+- категория G: за ночь — 350, разовое обслуживание — 150.""")
+with st.expander("Описание данных:"):
+    st.write("""
+    - id — номер записи;
+    - adults — количество взрослых постояльцев;
+    - arrival_date_year — год заезда;
+    - arrival_date_month — месяц заезда;
+    - arrival_date_week_number — неделя заезда;
+    - arrival_date_day_of_month — день заезда;
+    - babies — количество младенцев;
+    - booking_changes — количество изменений параметров заказа;
+    - children — количество детей от 3 до 14 лет;
+    - country — гражданство постояльца;
+    - customer_type — тип заказчика:
+        - Contract — договор с юридическим лицом;
+        - Group — групповой заезд;
+        - Transient — не связано с договором или групповым заездом;
+        - Transient-party — не связано с договором или групповым заездом, но связано с бронированием типа Transient.
+    - days_in_waiting_list — сколько дней заказ ожидал подтверждения;
+    - distribution_channel — канал дистрибуции заказа:
+        - "Direct" (Прямой)
+        - "TA/TO" (Туристические агентства/Туроператоры)
+        - "Corporate" (Корпоративный)
+        - "GDS" (Глобальные системы бронирования)
+    - is_canceled — отмена заказа;
+    - is_repeated_guest — признак того, что гость бронирует номер второй раз;
+    - lead_time — количество дней между датой бронирования и датой прибытия;
+    - meal — опции заказа:
+        - SC — нет дополнительных опций;
+        - BB — включён завтрак;
+        - HB — включён завтрак и обед;
+        - FB — включён завтрак, обед и ужин.
+    - previous_bookings_not_canceled — количество подтверждённых заказов у клиента;
+    - previous_cancellations — количество отменённых заказов у клиента;
+    - required_car_parking_spaces — необходимость места для автомобиля;
+    - reserved_room_type — тип забронированной комнаты;
+    - stays_in_weekend_nights — количество ночей в выходные дни;
+    - stays_in_week_nights — количество ночей в будние дни;
+    - total_nights — общее количество ночей;
+    - total_of_special_requests — количество специальных отметок.
+        """
+    )
+st.sidebar.header("Признаки для модели машинного обучения")
+def changes(df):
+    pass
+def user_input_features():
+    meal = st.sidebar.selectbox('опции заказа', ('BB', 'FB', 'HB', 'SC'))
+    country = st.sidebar.selectbox('гражданство постояльца', ('GBR', 'PRT', 'ESP', 'IRL', 'FRA', 'Others', 'USA', 'DEU', 'BEL', 'CHE', 'NLD', 'ITA', 'BRA', 'AUT'))
+    distribution_channel = st.sidebar.selectbox('канал дистрибуции заказа', ('Direct', 'TA/TO', 'Corporate', 'GDS'))
+    reserved_room_type = st.sidebar.selectbox('тип забронированной комнаты', ('A', 'C', 'D', 'E', 'G', 'F', 'B'))
+    customer_type = st.sidebar.selectbox('тип заказчика', ('Transient', 'Contract', 'Transient-Party', 'Group'))
+    adults = st.sidebar.slider('количество взрослых постояльцев', 0, 6, 2)
+    children = st.sidebar.slider('количество детей от 3 до 14 лет', 0, 5, 2)
+    babies = st.sidebar.slider('количество младенцев', 0, 1, 5)
+    days_in_waiting_list = st.sidebar.slider('сколько дней заказ ожидал подтверждения', 0, 250, 0)
+    previous_cancellations = st.sidebar.slider('количество отменённых заказов у клиента', 0, 30, 0)
+    data_lead = st.sidebar.date_input("день бронирования", datetime.date(2019, 7, 6))
+    end_time = st.sidebar.date_input("день заезда", datetime.date(2019, 7, 20))
+    count_day = st.sidebar.slider('Количество дней проживания', 0, 31, 0)
+    data_back = end_time + datetime.timedelta(days=count_day)
+    lead_time = (end_time-data_lead).days
+    total_of_special_requests = st.sidebar.slider('количество специальных отметок', 0, 8, 0)
+    arrival_date_day_of_month = end_time.day
+    arrival_date_year = end_time.year
+    arrival_date_month = end_time.month
+    arrival_date_week_number = end_time.isocalendar()[1]
+    stays_in_weekend_nights = 0
+    stays_in_week_nights = 0
+    total_nights = stays_in_weekend_nights + stays_in_week_nights
+    current_date = end_time
+    while current_date < data_back:
+        if current_date.weekday() < 5:  # Понедельник (0) - Пятница (4)
+            stays_in_week_nights += 1
+        else:
+            stays_in_weekend_nights += 1
+        current_date += datetime.timedelta(days=1)
+    is_repeated_guest = st.sidebar.selectbox('признак того, что гость бронирует номер второй раз', ('Yes', 'No'))
+    previous_bookings_not_canceled = st.sidebar.slider('количество подтверждённых заказов у клиента', 0, 60, 0)
+    required_car_parking_spaces = st.sidebar.selectbox('необходимость места для автомобиля', ('Yes', 'No'))
+    booking_changes = st.sidebar.slider('количество измененных вами параметров', 0, 10, 0)
+    data = {'meal': meal,
+            'country': country,
+            'distribution_channel': distribution_channel,
+            'reserved_room_type': reserved_room_type,
+            'customer_type': customer_type,
+            'lead_time': lead_time,
+            'adults': adults,
+            'children': children,
+            'booking_changes': booking_changes,
+            'babies': babies,
+            'days_in_waiting_list': days_in_waiting_list,
+            'previous_cancellations': previous_cancellations,
+            'total_nights': total_nights,
+            'total_of_special_requests': total_of_special_requests,
+            'arrival_date_day_of_month': arrival_date_day_of_month,
+            'arrival_date_year': arrival_date_year,
+            'arrival_date_month': arrival_date_month,
+            'arrival_date_week_number': arrival_date_week_number,
+            'stays_in_weekend_nights': stays_in_weekend_nights,
+            'stays_in_week_nights': stays_in_week_nights,
+            'is_repeated_guest': is_repeated_guest,
+            'previous_bookings_not_canceled': previous_bookings_not_canceled,
+            'required_car_parking_spaces': required_car_parking_spaces,
+            }
+    features = pd.DataFrame(data, index=[0])
+    return features
+df = user_input_features()
+df = df.sort_index(axis=1)
+st.subheader('Таблица с введенными вами параметрами:')
+# st.write(df)
+def pre_category(data):
+    if data == "Yes":
+        return 1
+    else:
+        return 0
+def preprocessing_data(df, scaler, ohe):
+    df['is_repeated_guest'] = df['is_repeated_guest'].apply(pre_category)
+    df['required_car_parking_spaces'] = df['required_car_parking_spaces'].apply(pre_category)
+    numeric = ['adults', 'children', 'booking_changes', 'babies', 'days_in_waiting_list', 'previous_cancellations', 'lead_time',
+    'total_nights', 'total_of_special_requests', 'arrival_date_day_of_month', 'arrival_date_year', 'arrival_date_month',
+    'arrival_date_week_number', 'stays_in_weekend_nights', 'stays_in_week_nights', 'is_repeated_guest', 'previous_bookings_not_canceled',
+    'required_car_parking_spaces', 'booking_changes']
+    categorical = ['meal', 'country', 'distribution_channel', 'reserved_room_type', 'customer_type']
+    df[numeric] = scaler.transform(df[numeric])
+    tmp = pd.DataFrame(ohe.transform(df[categorical]).toarray(),
+                                   columns=ohe.get_feature_names_out(),
+                                   index=df.index)
+    df.drop(categorical, axis=1, inplace=True)
+    df = df.join(tmp).sort_index(axis=1)
+    return pd.DataFrame(df, index=[0])
+@st.cache_resource
+def get_model():
+    load_model = pickle.load(open('models/booking_cancel_pred.pkl', 'rb'))
+    ohe_model = pickle.load(open('models/ohe_booking_cancel_pred.pkl', 'rb'))
+    scaler_model = pickle.load(open('models/scaler_booking_cancel_pred.pkl', 'rb'))
+    return load_model, scaler_model, ohe_model
+model, sc_model, ohe_model = get_model()
+df_new = preprocessing_data(df, sc_model, ohe_model)
+# st.write(df_new)
+prediction = model.predict(df_new)
+prediction_proba = model.predict_proba(df_new)
+st.subheader('Рекомендация')
+exited = np.array(['Клиент вероятно оставит бронь','Клиент вероятно отменит бронь'])
+st.write(exited[prediction])
+st.subheader('Вероятность рекомендации')
+st.write(prediction_proba)

pages/4_toxic_comments.py ADDED Viewed

	@@ -0,0 +1,106 @@

+import streamlit as st
+import pandas as pd
+import pickle
+import transformers as tfs
+from catboost import CatBoostClassifier
+from sklearn.linear_model import LogisticRegression
+import numpy as np
+import torch as t
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+st.set_page_config(page_title="# Выявление негативных комментариев с BERT")
+st.markdown('# Выявление негативных комментариев с BERT')
+with st.expander("Описание проекта"):
+    st.write("""
+        Интернет-магазин «Викишоп» запускает новый сервис.
+        Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах.
+        То есть клиенты предлагают свои правки и комментируют изменения других.
+        Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.
+    """)
+def detect_language(text):
+    first_letter = text[0].lower()
+    if 'а' <= first_letter <= 'я':
+        return 'ru'
+def ru_bert_comments(text):
+    model_checkpoint = 'cointegrated/rubert-tiny-toxicity'
+    tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
+    model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint)
+    if t.cuda.is_available():
+        model.cuda()
+    def text2toxicity(text, aggregate=True):
+        """ Calculate toxicity of a text (if aggregate=True) or a vector of toxicity aspects (if aggregate=False)"""
+        with t.no_grad():
+            inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True).to(model.device)
+            proba = t.sigmoid(model(**inputs).logits).cpu().numpy()
+        if isinstance(text, str):
+            proba = proba[0]
+        if aggregate:
+            return 1 - proba.T[0] * (1 - proba.T[-1])
+        return proba
+    return round(text2toxicity(text, True))
+def preprocessing(text):
+    lang = detect_language(text)
+    if lang == "ru":
+        return ru_bert_comments(str(text))
+    else:
+        tokenizer = tfs.AutoTokenizer.from_pretrained('unitary/toxic-bert')
+        model = tfs.AutoModel.from_pretrained('unitary/toxic-bert')
+    tokenized = tokenizer.encode(text, add_special_tokens=True)
+    if len(tokenized) > 512:
+        truncated_tokens = tokenized[:510]
+        truncated_tokens = [101] + truncated_tokens + [102]
+        tokenized = truncated_tokens
+    padded = np.array(tokenized + [0] * (512 - len(tokenized)))
+    attention_mask = np.where(padded != 0, 1, 0)
+    input_ids = t.tensor(padded)
+    attention_mask = t.tensor(attention_mask)
+    with t.no_grad():
+        embeddings = model(input_ids.unsqueeze(0), attention_mask=attention_mask.unsqueeze(0))[0][:, 0, :].cpu().numpy()
+    return embeddings
+def query(features):
+    model = pickle.load(open('models/toxic_comments_bert.pkl', 'rb'))
+    predict = model.predict(features)
+    return predict
+comment = st.text_area("Введите ваш комментарий, модель работает на английском и русском языках и нажмите Ctrl+Enter", "")
+result = None
+if comment:
+    st.markdown('## Результат:')
+    embeddings = preprocessing(comment)
+    if isinstance(embeddings, int):
+        if embeddings == 0:
+            result = 'Комментарий не токсичный'
+        else:
+            result = 'Комментарий является токсичным'
+    else:
+        if query(embeddings) == 0:
+            result = 'Комментарий не токсичный'
+        else:
+            result = 'Комментарий является токсичным'
+if result is not None:
+    st.write(result)

pages/5_star_temperature.py ADDED Viewed

	@@ -0,0 +1,147 @@

+import streamlit as st
+import numpy as np
+import pandas as pd
+import pickle
+import torch
+import torch.nn as nn
+from torch.utils.data import Dataset, DataLoader
+from math import ceil
+from sklearn.metrics import mean_squared_error
+from sklearn.model_selection import train_test_split
+from sklearn.preprocessing import StandardScaler, OneHotEncoder
+from sklearn.compose import ColumnTransformer
+st.set_page_config(page_title="# Прогнозирование температуры звезды")
+st.markdown('# Прогнозирование температуры звезды')
+with st.expander("Описание проекта"):
+    st.write("""
+        Вам пришла задача от обсерватории «Небо на ладони»: придумать, как с помощью нейросети определять температуру на поверхности обнаруженных звёзд. Обычно для расчёта температуры учёные пользуются следующими методами:
+- Закон смещения Вина.
+- Закон Стефана-Больцмана.
+- Спектральный анализ.
+Каждый из них имеет плюсы и минусы. Обсерватория хочет внедрить технологии машинного обучения для предсказания температуры звёзд, надеясь, что этот метод будет наиболее точным и удобным.
+В базе обсерватории есть характеристики уже изученных 240 звёзд.
+**Характеристики**
+- Относительная светимость L/Lo — светимость звезды относительно Солнца.
+- Относительный радиус R/Ro — радиус звезды относительно радиуса Солнца.
+- Абсолютная звёздная величина Mv — физическая величина, характеризующая блеск звезды.
+- Звёздный цвет (white, red, blue, yellow, yellow-orange и др.) — цвет звезды, который определяют на основе спектрального анализа.
+- Тип звезды.
+    - 0 - Коричневый карлик
+    - 1 - Красный карлик
+    - 2 - Белый карлик
+    - 3 - Звёзды главной последовательности
+    - 4 - Сверхгигант
+    - 5 - Гипергигант
+- Абсолютная температура T(K) — температура на поверхности звезды в Кельвинах.
+В этом самостоятельном проекте вам необходимо разработать нейронную сеть, которая поможет предсказывать абсолютную температуру на поверхности звезды.
+ Справочная информация:
+Светимость Солнца (англ. Average Luminosity of Sun)
+ $L_0 = 3.828 \cdot 10^{26}\,Вт$
+Радиус Солнца (англ. Average Radius of Sun)
+ $R_0 = 6.9551\cdot 10^8\,м$
+    """)
+st.sidebar.header("Признаки для модели машинного обучения")
+def star_type_cat(type_star):
+    type_dict = {'Коричневый карлик':0,
+    'Красный карлик':1,
+    'Белый карлик':2,
+    'Звёзды главной последовательности':3,
+    'Сверхгигант':4,
+    'Гипергигант':5
+    }
+    return type_dict[type_star]
+def user_input_features():
+    star_color = st.sidebar.selectbox('цвет звезды, который определяют на основе спектрального анализа', ('red', 'blue', 'white', 'blue-white', 'orange', 'yellow-white', 'whitish'))
+    luminosity = st.sidebar.slider('светимость звезды относительно Солнца', 0.00008, 900000.0, 2000.0)
+    radius = st.sidebar.slider('радиус звезды относительно радиуса Солнца', 0.007, 2000.0, 200.0)
+    abs_magnitude = st.sidebar.slider('физическая величина, характеризующая блеск звезды', -12.0, 25.0, 10.0)
+    star_type = st.sidebar.selectbox('цвет звезды, который определяют на основе спектрального анализа', ('Коричневый карлик', 'Красный карлик', 'Белый карлик', 'Звёзды главной последовательности',
+                                                                                                         'Сверхгигант', 'Гипергигант'))
+    data = {'luminosity': luminosity,
+            'radius':radius,
+            'abs_magnitude':abs_magnitude,
+            'star_color':star_color,
+            'star_type':star_type
+            }
+    features = pd.DataFrame(data, index=[0])
+    return features
+df = user_input_features()
+df = df.sort_index(axis=1)
+st.subheader('Таблица с введенными вами параметрами:')
+st.write(df)
+def preprocessing_data(df, scaler, ohe):
+    df['star_type']=df['star_type'].apply(star_type_cat)
+    numeric = ['luminosity', 'radius', 'abs_magnitude']
+    categorial = ['star_color', 'star_type']
+    df[numeric] = scaler.transform(df[numeric])
+    tmp = pd.DataFrame(ohe.transform(df[categorial]).toarray(),
+                                   columns=ohe.get_feature_names_out(),
+                                   index=df.index)
+    df.drop(categorial, axis=1, inplace=True)
+    df = df.join(tmp).sort_index(axis=1)
+    df = torch.FloatTensor(df.values)
+    return df
+class Net(nn.Module):
+    def __init__(self, input_size, hidden_size1, hidden_size2, num_classes):
+        super(Net, self).__init__()
+        self.fc1 = nn.Linear(input_size, hidden_size1)
+        self.act1 = nn.Tanh()
+        self.fc2 = nn.Linear(hidden_size1, hidden_size2)
+        self.act2 = nn.ReLU()
+        self.fc3 = nn.Linear(hidden_size2, num_classes)
+    def forward(self, x):
+        out = self.fc1(x)
+        out = self.act1(out)
+        out = self.fc2(out)
+        out = self.act2(out)
+        out = self.fc3(out)
+        return out
+def get_model_pre():
+    ohe_model = pickle.load(open('models/ohe_star_temperature_pred.pkl', 'rb'))
+    scaler_model = pickle.load(open('models/scaler_star_temperature_pred.pkl', 'rb'))
+    return scaler_model, ohe_model
+def get_model():
+    net = Net(df_new.shape[1], 700, 850, 1)
+    net.load_state_dict(torch.load('models/star_temperature_pred.pkl'))
+    net.eval()
+    prediction = net.forward(df_new).detach().numpy()[0][0]
+    return prediction
+sc_model, ohe_model = get_model_pre()
+df_new = preprocessing_data(df, sc_model, ohe_model)
+model_pred = get_model()
+st.subheader('Температура звезды:')
+st.write(str(model_pred) + ' K')

pages/6_sql_stackoverflow.py ADDED Viewed

	@@ -0,0 +1,191 @@

+import streamlit as st
+import pandas as pd
+from sqlalchemy import create_engine
+from PIL import Image
+st.set_page_config(page_title="# Анализ данных StackOverflow")
+st.markdown('# Анализ данных StackOverflow')
+with st.expander("Описание проекта"):
+    st.write("""
+        Вы будете работать с базой данных StackOverflow — сервиса вопросов и ответов о программировании.
+    StackOverflow похож на социальную сеть — пользователи сервиса задают вопросы, отвечают на посты, оставляют комментарии и ставят оценки другим ответам.
+Вы будете работать с версией базы, где хранятся данные о постах за 2008 год, но в таблицах вы найдёте информацию и о более поздних оценках, которые эти посты получили.
+    Описание данных:
+- Таблица badges:
+    Хранит информацию о значках, которые присуждаются за разные достижения. Например, пользователь, правильно ответивший на большое количество вопросов про PostgreSQL, может получить значок postgresql.
+    - id	Идентификатор значка, первичный ключ таблицы
+    - name	Название значка
+    - user_id	Идентификатор пользователя, которому присвоили значок, внешний ключ, отсылающий к таблице users
+    - creation_date	Дата присвоения значка
+- Таблица post_types:
+Содержит информацию о типе постов. Их может быть два:
+    - Question — пост с вопросом;
+    - Answer — пост с ответом.
+    - id	Идентификатор поста, первичный ключ таблицы
+    - type	Тип поста
+- Таблица posts:
+Содержит информацию о постах.
+    - id	Идентификатор поста, первичный ключ таблицы
+    - title	Заголовок поста
+    - creation_date	Дата создания поста
+    - favorites_count	Число, которое показывает, сколько раз пост добавили в «Закладки»
+    - last_activity_date	Дата последнего действия в посте, например комментария
+    - last_edit_date	Дата последнего изменения поста
+    - user_id	Идентификатор пользователя, который создал пост, внешний ключ к таблице users
+    - parent_id	Если пост написали в ответ на другую публикацию, в это поле попадёт идентификатор поста с вопросом
+    - post_type_id	Идентификатор типа поста, внешний ключ к таблице post_types
+    - score	Количество очков, которое набрал пост
+    - views_count	Количество просмотров
+- Таблица users:
+Содержит информацию о пользователях.
+    - id	Идентификатор пользователя, первичный ключ таблицы
+    - creation_date	Дата регистрации пользователя
+    - display_name	Имя пользователя
+    - last_access_date	Дата последнего входа
+    - location	Местоположение
+    - reputation	Очки репутации, которые получают за хорошие вопросы и полезные ответы
+    - views	Число просмотров профиля пользователя
+- Таблица vote_types:
+Содержит информацию о типах голосов. Голос — это метка, которую пользователи ставят посту. Типов бывает несколько:
+    - UpMod — такую отметку получают посты с вопросами или ответами, которые пользователи посчитали уместными и полезными.
+    - DownMod — такую отметку получают посты, которые показались пользователям наименее полезными.
+    - Close — такую метку ставят опытные пользователи сервиса, если заданный вопрос нужно доработать или он вообще не подходит для платформы.
+    - Offensive — такую метку могут поставить, если пользователь ответил на вопрос в грубой и оскорбительной манере, например, указав на неопытность автора поста.
+    - Spam — такую метку ставят в случае, если пост пользователя выглядит откровенной рекламой.
+    - id	Идентификатор типа голоса, первичный ключ
+    - name	Название метки
+- Таблица votes:
+    Содержит информацию о голосах за посты.
+    - id	Идентификатор голоса, первичный ключ
+    - post_id	Идентификатор поста, внешний ключ к таблице posts
+    - user_id	Идентификатор пользователя, который поставил посту голос, внешний ключ к таблице users
+    - bounty_amount	Сумма вознаграждения, которое назначают, чтобы привлечь внимание к посту
+    - vote_type_id	Идентификатор типа голоса, внешний ключ к таблице vote_types
+    - creation_date	Дата назначения голоса
+    """)
+db_config = {
+    'user': 'praktikum_student', # имя пользователя
+    'pwd': 'Sdf4$2;d-d30pp', # пароль
+    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
+    'port': 6432, # порт подключения
+    'db': 'data-analyst-advanced-sql' # название базы данных
+    }
+connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(
+        db_config['user'],
+        db_config['pwd'],
+        db_config['host'],
+        db_config['port'],
+        db_config['db'],
+    )
+engine = create_engine(connection_string)
+def query_db(query):
+    return pd.read_sql_query(query, con=engine)
+query_1 = '''SELECT date_trunc('month', creation_date) as month_date, sum(views_count) as total_views
+FROM stackoverflow.posts
+WHERE extract( YEAR from creation_date) = '2008'
+GROUP BY month_date
+ORDER BY total_views DESC
+'''
+query_2 = '''SELECT u.display_name, count(DISTINCT p.user_id)
+FROM stackoverflow.users as u
+JOIN stackoverflow.posts as p ON p.user_id = u.id
+JOIN stackoverflow.post_types as pt ON pt.id = p.post_type_id
+WHERE pt.type = 'Answer' AND
+p.creation_date::date BETWEEN u.creation_date AND (u.creation_date::date + INTERVAL '1 month')
+GROUP BY u.display_name
+HAVING count(p.user_id)>100
+ORDER BY u.display_name
+'''
+query_3 = '''WITH  dt as (SELECT u.id
+FROM stackoverflow.posts as p
+JOIN  stackoverflow.users as u ON p.user_id = u.id
+WHERE DATE_TRUNC('month', u.creation_date) = '2008-09-01' AND
+DATE_TRUNC('month', p.creation_date) = '2008-12-01')
+SELECT date_trunc('month', p.creation_date)::date as month, count(p.id)
+FROM stackoverflow.posts as p
+WHERE p.user_id in (SELECT * FROM dt) AND
+EXTRACT(YEAR FROM p.creation_date) = '2008'
+GROUP BY month
+ORDER BY month DESC
+'''
+query_4 = '''SELECT user_id, AVG(avg_daily)
+FROM (SELECT DISTINCT user_id, date_trunc('day', creation_date)::date as t,
+count(id) OVER (PARTITION BY user_id, date_trunc('day', creation_date)::date) as avg_daily,
+count(id) OVER (PARTITION BY user_id, date_trunc('month', creation_date)::date) as cnt
+FROM stackoverflow.posts
+WHERE date_trunc('month', creation_date)::date = '2008-08-01') as dt
+WHERE cnt>120
+GROUP BY user_id
+ORDER BY AVG(avg_daily)
+'''
+examples = {'Выводит общую сумму просмотров постов за каждый месяц 2008 года':query_1,
+            'Выводит имена самых активных пользователей, которые в первый месяц после регистрации (включая день регистрации) дали больше 100 ответов':query_2,
+            'Выводит количество постов за 2008 год по месяцам. Отбирает посты от пользователей, которые зарегистрировались в сентябре 2008 года и сделали хотя бы один пост в декабре того же года.':query_3,
+            'Найдет среднее количество постов пользователей в день за август 2008 года. Отберет данные о пользователях, которые опубликовали больше 120 постов за август. Дни без публикаций не учитывает.':query_4,
+            }
+with st.expander("Схема быза данных"):
+    image = Image.open('image/Frame.png')
+    st.image(image)
+with st.expander("Примеры SQL запросов"):
+    query = st.selectbox('Выберете один из запросов:', ('Выводит общую сумму просмотров постов за каждый месяц 2008 года',
+                                                        'Выводит имена самых активных пользователей, которые в первый месяц после регистрации (включая день регистрации) дали больше 100 ответов',
+                                                        'Выводит количество постов за 2008 год по месяцам. Отбирает посты от пользователей, которые зарегистрировались в сентябре 2008 года и сделали хотя бы один пост в декабре того же года.',
+                                                        'Найдет среднее количество постов пользователей в день за август 2008 года. Отберет данные о пользователях, которые опубликовали больше 120 постов за август. Дни без публикаций не учитывает.',
+                                                        ))
+    st.code(examples[query], language="sql", line_numbers=False)
+    if st.button("Запуск запроса"):
+        st.markdown('## Результат запроса:')
+        st.write(query_db(examples[query]))
+def submit():
+    st.session_state.title = st.session_state.widget
+    st.session_state.widget = ""
+st.text_input("Введите ваш SQL запрос", key="widget", on_change=submit)
+if 'title' not in st.session_state:
+    st.session_state.title = ""
+title = st.session_state.title
+# st.write(title)
+# title = st.text_input('Введите ваш SQL запрос')
+if title:
+    st.markdown('## Ваш запрос:')
+    st.code(title, language="sql", line_numbers=False)
+    st.markdown('## Результат запроса:')
+    try:
+        st.write(query_db(title))
+    except:
+        'Запрос неверен, убедитесь в правильности запроса'

pages/7_car_cost_pred.py ADDED Viewed

	@@ -0,0 +1,148 @@

+import streamlit as st
+import numpy as np
+import pandas as pd
+import pickle
+from catboost import CatBoostRegressor
+from sklearn.preprocessing import StandardScaler, OneHotEncoder
+import datetime
+st.set_page_config(page_title="# Определение стоимости автомобилей")
+st.markdown('# Определение стоимости автомобилей')
+with st.expander("Описание проекта"):
+    st.write(
+        """Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля.
+В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости.
+Описание данных:
+- DateCrawled — дата скачивания анкеты из базы
+- VehicleType — тип автомобильного кузова
+- RegistrationYear — год регистрации автомобиля
+- Gearbox — тип коробки передач
+- Power — мощность (л. с.)
+- Model — модель автомобиля
+- Kilometer — пробег (км)
+- RegistrationMonth — месяц регистрации автомобиля
+- FuelType — тип топлива
+- Brand — марка автомобиля
+- Repaired — была машина в ремонте или нет
+- DateCreated — дата создания анкеты
+- NumberOfPictures — количество фотографий автомобиля
+- PostalCode — почтовый индекс владельца анкеты (пользователя)
+- LastSeen — дата последней активности пользователя
+Целевой признак:
+- Price — цена (евро)
+        """
+    )
+st.sidebar.header("Признаки для модели машинного обучения")
+def changes(df):
+    pass
+def user_input_features():
+    VehicleType = st.sidebar.selectbox('тип автомобильного кузова', ('suv', 'convertible', 'sedan', 'wagon', 'small', 'bus', 'coupe',
+       'unknown', 'other'))
+    RegistrationYear = st.sidebar.slider('год регистрации автомобиля', 1900, 2018, 2000)
+    Gearbox = st.sidebar.selectbox('тип коробки передач', ('manual', 'auto', 'unknown'))
+    Power = st.sidebar.slider('мощность (л. с.)', 1, 1000, 300)
+    Model = st.sidebar.selectbox('модель автомобиля', ('tiguan', 'fortwo', '3er', 'unknown', 'logan', 'mondeo', 'golf',
+       'astra', 'polo', 'omega', 'zafira', 'touran', 'other', 'c_klasse',
+       'cooper', '2_reihe', 'rav', 'clio', '601', '500', 'laguna', 'a4',
+       'civic', 'picanto', 'combo', 'boxster', 'stilo', 'ka', 'a3', 'eos',
+       '7er', 'passat', 'tt', 'focus', 'fiesta', 'twingo', 'panda',
+       'e_klasse', 'xc_reihe', 'carnival', 'kuga', 'a6', 'a_klasse',
+       '5er', 'caddy', '6_reihe', 'cc', 'm_klasse', 'vectra', 'mx_reihe',
+       'transit', 'insignia', 'corsa', 'discovery', 'bora', 'transporter',
+       'touareg', 'lupo', 'leon', 'galant', 'v50', 'vito', '1_reihe',
+       'colt', 'c5', 'cl', 'c4', 'v40', '3_reihe', 'sharan', 'slk',
+       'galaxy', 'z_reihe', 'kangoo', 'c_max', 'clk', 'escort',
+       'scirocco', 'avensis', 'ibiza', 'alhambra', 'octavia', 'megane',
+       'pajero', '1er', 'auris', 'arosa', 'roadster', 'jimny', 's_klasse',
+       'punto', 'ducato', 'agila', 'a1', 'x_reihe', 'meriva', 'i_reihe',
+       'seicento', 'berlingo', 'captiva', 'ceed', 'q5', '156', 'beetle',
+       'fabia', '147', 'citigo', '80', '900', 'phaeton', 'sandero',
+       'kalos', 'roomster', 'rx_reihe', '5_reihe', 'cordoba', 'forfour',
+       'qashqai', 'a8', 's_type', 'c3', 'micra', 'matiz', 'scenic',
+       'clubman', 'antara', '4_reihe', 'superb', 'santa', 'primera',
+       'b_klasse', 'tigra', 'yaris', 'modus', '159', 'carisma', 'cayenne',
+       'cuore', 'viano', 'x_trail', 'espace', 'exeo', 'yeti', 'fox',
+       'duster', 'spider', 'grand', 'mustang', 'c2', '100', 'vivaro',
+       'niva', 'corolla', 'r19', 'sorento', 'terios', 'swift', 'fusion',
+       'a5', 'x_type', 'cherokee', 'one', 'verso', 'rio', 'm_reihe',
+       'cr_reihe', 'altea', 'juke', 'v_klasse', 'toledo', 'jazz', 'v70',
+       'delta', 'outlander', 'signum', 'jetta', 'calibra', 's60', 'doblo',
+       'impreza', 'forester', '911', 'sportage', 'lybra', '850',
+       'sprinter', 'sl', 'c1', 'voyager', 'kadett', 'aveo', 'bravo',
+       'justy', 'almera', 'freelander', 'ptcruiser', 'tucson', 'aygo',
+       'kaefer', 'up', 's_max', 'getz', 'a2', 'cx_reihe', 'elefantino',
+       '90', 'lancer', 'q7', 'defender', 'ypsilon', 'c_reihe', 'accord',
+       'mii', 'nubira', 'glk', 'sirion', 'lanos', 'navara', '6er',
+       'croma', '300c', 'range_rover', 'g_klasse', 'range_rover_sport',
+       'note', 'spark', 'b_max', 'crossfire', 'move', 'kappa', '145',
+       'legacy', 'charade', 'musa', 'kalina', 'lodgy', 'serie_2', 'q3',
+       'samara', 'wrangler', 'materia', 'amarok', '9000', '200', 'i3',
+       'v60', 'gl', 'rangerover'))
+    Kilometer = st.sidebar.slider('пробег (км)', 1000, 150000, 30000)
+    FuelType = st.sidebar.selectbox('тип топлива', ('gasoline', 'petrol', 'unknown', 'electric', 'lpg', 'other', 'cng',
+       'hybrid'))
+    Brand = st.sidebar.selectbox('марка автомобиля', ('volkswagen', 'smart', 'bmw', 'dacia', 'ford', 'opel',
+       'mitsubishi', 'mercedes_benz', 'renault', 'mini', 'peugeot',
+       'toyota', 'citroen', 'trabant', 'fiat', 'audi', 'porsche', 'honda',
+       'kia', 'mazda', 'volvo', 'suzuki', 'land_rover', 'seat', 'hyundai',
+       'skoda', 'chevrolet', 'nissan', 'sonstige_autos', 'alfa_romeo',
+       'saab', 'rover', 'daewoo', 'chrysler', 'jaguar', 'daihatsu',
+       'lancia', 'jeep', 'lada', 'subaru'))
+    Repaired = st.sidebar.selectbox('была машина в ремонте или нет', ('no', 'unknown', 'yes'))
+    data = {'VehicleType': VehicleType,
+            'RegistrationYear': RegistrationYear,
+            'Gearbox': Gearbox,
+            'Power': Power,
+            'Model': Model,
+            'Kilometer': Kilometer,
+            'FuelType': FuelType,
+            'Brand': Brand,
+            'Repaired': Repaired
+            }
+    features = pd.DataFrame(data, index=[0])
+    return features
+df = user_input_features()
+df = df.sort_index(axis=1)
+st.subheader('Таблица с введенными вами параметрами:')
+st.write(df)
+def preprocessing_data(df, scaler, ohe):
+    numeric = ['Power', 'Kilometer', 'RegistrationYear']
+    categorial = ['FuelType', 'Repaired', 'Gearbox', 'VehicleType', 'Brand', 'Model']
+    df[numeric] = scaler.transform(df[numeric])
+    tmp = pd.DataFrame(ohe.transform(df[categorial]).toarray(),
+                                   columns=ohe.get_feature_names_out(),
+                                   index=df.index)
+    df.drop(categorial, axis=1, inplace=True)
+    df = df.join(tmp).sort_index(axis=1)
+    return pd.DataFrame(df, index=[0])
+@st.cache_resource
+def get_model():
+    load_model = pickle.load(open('models/car_cost_pred.pkl', 'rb'))
+    ohe_model = pickle.load(open('models/ohe_car_cost_pred.pkl', 'rb'))
+    scaler_model = pickle.load(open('models/scaler_car_cost_pred.pkl', 'rb'))
+    return load_model, scaler_model, ohe_model
+model, sc_model, ohe_model = get_model()
+df_new = preprocessing_data(df, sc_model, ohe_model)
+# st.write(df_new)
+prediction = model.predict(df_new)
+st.subheader('Рекомендованная стоимость')
+rounded_prediction = np.around(prediction)
+st.write(str(abs(rounded_prediction.item())) + ' евро')

pages/8_accident_prediction.py ADDED Viewed

	@@ -0,0 +1,145 @@

+import streamlit as st
+import numpy as np
+import pandas as pd
+import pickle
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.preprocessing import StandardScaler, OneHotEncoder
+import datetime
+st.set_page_config(page_title="# Разработка модели для оценки ДТП по выбранному маршруту движения.")
+st.markdown('# Разработка модели для оценки ДТП по выбранному маршруту движения.')
+st.write(
+    """Цель:
+Нужно создать систему, которая могла бы оценить риск ДТП по выбранному маршруту движения.
+Под риском понимается вероятность ДТП с любым повреждением транспортного средства.
+Как только водитель забронировал автомобиль, сел за руль и выбрал маршрут, система должна оценить уровень риска.
+Если уровень риска высок, водитель увидит предупреждение и рекомендации по маршруту.
+    """
+)
+st.sidebar.header("Признаки для модели машинного обучения")
+def changes(df):
+    pass
+def user_input_features():
+    meal = st.sidebar.selectbox('опции заказа', ('BB', 'FB', 'HB', 'SC'))
+    country = st.sidebar.selectbox('гражданство постояльца', ('GBR', 'PRT', 'ESP', 'IRL', 'FRA', 'Others', 'USA', 'DEU', 'BEL', 'CHE', 'NLD', 'ITA', 'BRA', 'AUT'))
+    distribution_channel = st.sidebar.selectbox('канал дистрибуции заказа', ('Direct', 'TA/TO', 'Corporate', 'GDS'))
+    reserved_room_type = st.sidebar.selectbox('тип забронированной комнаты', ('A', 'C', 'D', 'E', 'G', 'F', 'B'))
+    customer_type = st.sidebar.selectbox('тип заказчика', ('Transient', 'Contract', 'Transient-Party', 'Group'))
+    adults = st.sidebar.slider('количество взрослых постояльцев', 0, 6, 2)
+    children = st.sidebar.slider('количество детей от 3 до 14 лет', 0, 5, 2)
+    babies = st.sidebar.slider('количество младенцев', 0, 1, 5)
+    days_in_waiting_list = st.sidebar.slider('сколько дней заказ ожидал подтверждения', 0, 250, 0)
+    previous_cancellations = st.sidebar.slider('количество отменённых заказов у клиента', 0, 30, 0)
+    data_lead = st.sidebar.date_input("день бронирования", datetime.date(2019, 7, 6))
+    end_time = st.sidebar.date_input("день заезда", datetime.date(2019, 7, 20))
+    count_day = st.sidebar.slider('Количество дней проживания', 0, 31, 0)
+    data_back = end_time + datetime.timedelta(days=count_day)
+    lead_time = (end_time-data_lead).days
+    total_of_special_requests = st.sidebar.slider('количество специальных отметок', 0, 8, 0)
+    arrival_date_day_of_month = end_time.day
+    arrival_date_year = end_time.year
+    arrival_date_month = end_time.month
+    arrival_date_week_number = end_time.isocalendar()[1]
+    stays_in_weekend_nights = 0
+    stays_in_week_nights = 0
+    total_nights = stays_in_weekend_nights + stays_in_week_nights
+    current_date = end_time
+    while current_date < data_back:
+        if current_date.weekday() < 5:  # Понедельник (0) - Пятница (4)
+            stays_in_week_nights += 1
+        else:
+            stays_in_weekend_nights += 1
+        current_date += datetime.timedelta(days=1)
+    is_repeated_guest = st.sidebar.selectbox('признак того, что гость бронирует номер второй раз', ('Yes', 'No'))
+    previous_bookings_not_canceled = st.sidebar.slider('количество подтверждённых заказов у клиента', 0, 60, 0)
+    required_car_parking_spaces = st.sidebar.selectbox('необходимость места для автомобиля', ('Yes', 'No'))
+    booking_changes = st.sidebar.slider('количество измененных вами параметров', 0, 10, 0)
+    data = {'meal': meal,
+            'country': country,
+            'distribution_channel': distribution_channel,
+            'reserved_room_type': reserved_room_type,
+            'customer_type': customer_type,
+            'lead_time': lead_time,
+            'adults': adults,
+            'children': children,
+            'booking_changes': booking_changes,
+            'babies': babies,
+            'days_in_waiting_list': days_in_waiting_list,
+            'previous_cancellations': previous_cancellations,
+            'total_nights': total_nights,
+            'total_of_special_requests': total_of_special_requests,
+            'arrival_date_day_of_month': arrival_date_day_of_month,
+            'arrival_date_year': arrival_date_year,
+            'arrival_date_month': arrival_date_month,
+            'arrival_date_week_number': arrival_date_week_number,
+            'stays_in_weekend_nights': stays_in_weekend_nights,
+            'stays_in_week_nights': stays_in_week_nights,
+            'is_repeated_guest': is_repeated_guest,
+            'previous_bookings_not_canceled': previous_bookings_not_canceled,
+            'required_car_parking_spaces': required_car_parking_spaces,
+            }
+    features = pd.DataFrame(data, index=[0])
+    return features
+df = user_input_features()
+df = df.sort_index(axis=1)
+st.subheader('Таблица с введенными вами параметрами:')
+# st.write(df)
+def pre_category(data):
+    if data == "Yes":
+        return 1
+    else:
+        return 0
+def preprocessing_data(df, scaler, ohe):
+    df['is_repeated_guest'] = df['is_repeated_guest'].apply(pre_category)
+    df['required_car_parking_spaces'] = df['required_car_parking_spaces'].apply(pre_category)
+    numeric = ['adults', 'children', 'booking_changes', 'babies', 'days_in_waiting_list', 'previous_cancellations', 'lead_time',
+    'total_nights', 'total_of_special_requests', 'arrival_date_day_of_month', 'arrival_date_year', 'arrival_date_month',
+    'arrival_date_week_number', 'stays_in_weekend_nights', 'stays_in_week_nights', 'is_repeated_guest', 'previous_bookings_not_canceled',
+    'required_car_parking_spaces', 'booking_changes']
+    categorical = ['meal', 'country', 'distribution_channel', 'reserved_room_type', 'customer_type']
+    df[numeric] = scaler.transform(df[numeric])
+    tmp = pd.DataFrame(ohe.transform(df[categorical]).toarray(),
+                                   columns=ohe.get_feature_names_out(),
+                                   index=df.index)
+    df.drop(categorical, axis=1, inplace=True)
+    df = df.join(tmp).sort_index(axis=1)
+    return pd.DataFrame(df, index=[0])
+@st.cache_resource
+def get_model():
+    load_model = pickle.load(open('models/booking_cancel_pred.pkl', 'rb'))
+    ohe_model = pickle.load(open('models/ohe_booking_cancel_pred.pkl', 'rb'))
+    scaler_model = pickle.load(open('models/scaler_booking_cancel_pred.pkl', 'rb'))
+    return load_model, scaler_model, ohe_model
+model, sc_model, ohe_model = get_model()
+df_new = preprocessing_data(df, sc_model, ohe_model)
+# st.write(df_new)
+prediction = model.predict(df_new)
+prediction_proba = model.predict_proba(df_new)
+st.subheader('Рекомендация')
+exited = np.array(['Клиент вероятно оставит бронь','Клиент вероятно отменит бронь'])
+st.write(exited[prediction])
+st.subheader('Вероятность рекомендации')
+st.write(prediction_proba)

pages/9_taxi_orders_prediction.py ADDED Viewed

	@@ -0,0 +1,85 @@

+import streamlit as st
+import numpy as np
+import pandas as pd
+import pickle
+from catboost import CatBoostRegressor
+import datetime
+st.set_page_config(page_title="# Прогнозирование заказов такси")
+st.markdown('# Прогнозирование заказов такси')
+with st.expander("Описание проекта"):
+    st.write("""
+        Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах.
+        Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час.
+        Описание данных:
+        - datetime - время заказа
+        - num_orders - число заказов
+    """)
+df_old = pd.read_csv('models/taxi.csv', index_col=[0], parse_dates=[0]).sort_index().resample('1H').sum()
+def user_input_features():
+    date = st.date_input("дата заказа такси", datetime.date(2018, 9, 6))
+    time = st.time_input('время заказа такси', datetime.time(8, 45))
+    target_datetime  = datetime.datetime.combine(date, time)
+    data = {'datetime': target_datetime }
+    features = pd.DataFrame(data, index=[0])
+    return features
+df = user_input_features()
+df = df.sort_index(axis=1)
+def preprocessing_data(data, max_lag, rolling_mean_size, target_datetime):
+    df_new = data.copy()
+    df_new['month'] = df_new.index.month
+    df_new['day'] = df_new.index.day
+    df_new['dayofweek'] = df_new.index.dayofweek
+    df_new['hour'] = df_new.index.hour
+    # Создаем признаки - значения за предыдущие периоды
+    for lag in range(1, max_lag + 1):
+        df_new[f'lag_{lag}'] = df_new['num_orders'].shift(lag)
+    # Создаем признак "скользящее среднее"
+    df_new['rolling_mean'] = df_new['num_orders'].shift().rolling(rolling_mean_size).mean()
+    # Удаляем пропуски
+    df_new = df_new.dropna(axis=0)
+    # Создаем DataFrame для target_datetime
+    target_df = target_datetime.copy()
+    target_df['month'] = target_df['datetime'].dt.month
+    target_df['day'] = target_df['datetime'].dt.day
+    target_df['dayofweek'] = target_df['datetime'].dt.dayofweek
+    target_df['hour'] = target_df['datetime'].dt.hour
+    target_df = target_df.set_index('datetime')
+    # Создаем признаки - значения за предыдущие периоды для target_datetime
+    for lag in range(1, max_lag + 1):
+        target_df[f'lag_{lag}'] = df_new['num_orders'].shift(lag).iloc[-1]
+    # Создаем признак "скользящее среднее" для target_datetime
+    target_df['rolling_mean'] = df_new['num_orders'].shift().rolling(rolling_mean_size).mean().iloc[-1]
+    return target_df
+@st.cache_resource
+def get_model():
+    load_model = pickle.load(open('models/taxi_orders_prediction.pkl', 'rb'))
+    return load_model
+model = get_model()
+target_datetime = pd.to_datetime(df['datetime'].iloc[0])
+features_for_prediction = preprocessing_data(df_old, 10, 10, df)
+prediction = model.predict(features_for_prediction)
+st.subheader('Прогназируемое количество заказов:')
+st.write(str(round(prediction[0])))

requirements.txt ADDED Viewed

	@@ -0,0 +1,12 @@

+scikit-learn==1.2.2
+streamlit==1.28.0
+numpy
+pandas
+sqlalchemy==2.0.20
+psycopg2-binary
+torch
+catboost
+transformers
+langid
+tensorflow==2.15.0
+st_pages==0.4.5