Spaces:

701w
/

speech_defects

Sleeping

App Files Files Community

yufii commited on Oct 24, 2024

Commit

ec8fa7d

verified ·

1 Parent(s): 476003d

Upload 9 files

Browse files

Files changed (8) hide show

.gitattributes +36 -36
.gitignore +4 -4
Dockerfile +23 -23
README.md +10 -10
app.py +9 -15
best_model.h5 +3 -0
requirements.txt +11 -10
utils.py +46 -96

.gitattributes CHANGED Viewed

@@ -1,36 +1,36 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text
-cnn_1_v6_final_model.h5 filter=lfs diff=lfs merge=lfs -text

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+cnn_1_v6_final_model.h5 filter=lfs diff=lfs merge=lfs -text

.gitignore CHANGED Viewed

@@ -1,5 +1,5 @@
-venv
-ol.py
-server.zip
-whisper_cahce
 others

+venv
+ol.py
+server.zip
+whisper_cahce
 others

Dockerfile CHANGED Viewed

@@ -1,23 +1,23 @@
-FROM python:3.11
-WORKDIR /app
-COPY . /app
-RUN apt-get update && apt-get install -y ffmpeg && apt-get clean
-RUN groupadd -r user && useradd -r -g user -m user
-RUN mkdir -p /tmp/whisper_cache && chmod 777 /tmp/whisper_cache
-RUN chown -R user:user /app
-ENV NUMBA_CACHE_DIR /tmp
-RUN pip install --no-cache-dir --upgrade pip && pip install --no-cache-dir -r requirements.txt
-USER user
-EXPOSE 8000
-CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "8000"]

+FROM python:3.11
+WORKDIR /app
+COPY . /app
+RUN apt-get update && apt-get install -y ffmpeg && apt-get clean
+RUN groupadd -r user && useradd -r -g user -m user
+RUN mkdir -p /tmp/whisper_cache && chmod 777 /tmp/whisper_cache
+RUN chown -R user:user /app
+ENV NUMBA_CACHE_DIR /tmp
+RUN pip install --no-cache-dir --upgrade pip && pip install --no-cache-dir -r requirements.txt
+USER user
+EXPOSE 8000
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "8000"]

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
----
-title: speech_defects
-emoji: 🐳
-colorFrom: purple
-colorTo: gray
-sdk: docker
-app_port: 8000
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+---
+title: speech_defects
+emoji: 🐳
+colorFrom: purple
+colorTo: gray
+sdk: docker
+app_port: 8000
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py CHANGED Viewed

@@ -9,13 +9,11 @@ import librosa
 import numpy as np
 import re
 import Levenshtein
-from fastapi.responses import JSONResponse
 from fastapi.middleware.cors import CORSMiddleware
-from utils import (
-    extract_features,
-    pad_or_trim,
-)
 #вывод в консоль для просмотри на hugging face
 logging.basicConfig(
@@ -45,7 +43,7 @@ os.makedirs(cache_dir, exist_ok=True)
 whisper_model = whisper.load_model("tiny", download_root=cache_dir)
 # загрузка параметров модели
-filepath = os.path.abspath("cnn_1_v6_final_model.h5")
 if not os.path.exists(filepath):
     raise FileNotFoundError(f"Model file not found at {filepath}")
@@ -70,9 +68,7 @@ def temporary_audio_file(audio_bytes):
 async def read_root():
     return {"message": "Welcome to the Defects_model API"}
 model = keras.models.load_model(filepath, compile=False)
-target_shape = (32, 200)
 # Endpoint для сохранения аудио файлов
 @app.post("/save-audio")
@@ -146,16 +142,14 @@ async def process_audio(
                 raise ValueError("Empty or invalid audio data.")
             # Извлечение признаков из аудио
-            features = extract_features(audio_data, sample_rate)
             logging.info(f"Features extracted: shape = {features.shape}")
-            # Подготовка данных для модели
-            target_shape = (1, model.input_shape[1])
-            features = pad_or_trim(features, target_shape[1])
-            features = np.expand_dims(features, axis=0)
             # Получение предсказания от модели
             prediction = model.predict(features)
             logging.info(f"Prediction: {prediction}")
             # Транскрибация аудио с помощью Whisper
@@ -184,4 +178,4 @@ async def process_audio(
     except Exception as e:
         logging.exception(f"Error processing audio: {e}")
-        raise HTTPException(status_code=500, detail="Internal server error")

 import numpy as np
 import re
 import Levenshtein
+from fastapi.responses import JSONResponse
 from fastapi.middleware.cors import CORSMiddleware
+from utils import get_features
 #вывод в консоль для просмотри на hugging face
 logging.basicConfig(
 whisper_model = whisper.load_model("tiny", download_root=cache_dir)
 # загрузка параметров модели
+filepath = os.path.abspath("best_model.h5")
 if not os.path.exists(filepath):
     raise FileNotFoundError(f"Model file not found at {filepath}")
 async def read_root():
     return {"message": "Welcome to the Defects_model API"}
 model = keras.models.load_model(filepath, compile=False)
 # Endpoint для сохранения аудио файлов
 @app.post("/save-audio")
                 raise ValueError("Empty or invalid audio data.")
             # Извлечение признаков из аудио
+            features = get_features(tmp_filename) # here data already in form
+            # features = np.expand_dims(features, axis=0)  # Add batch dimension
             logging.info(f"Features extracted: shape = {features.shape}")
             # Получение предсказания от модели
+            class_weights = {0: 0.5460790960451978, 1: 1.0068333333333332, 2: 10.696369636963697}
             prediction = model.predict(features)
+            prediction = prediction * class_weights
             logging.info(f"Prediction: {prediction}")
             # Транскрибация аудио с помощью Whisper
     except Exception as e:
         logging.exception(f"Error processing audio: {e}")
+        raise HTTPException(status_code=500, detail="Internal server error")

best_model.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d65809a43e770cf2498633341312aef94ad9c7940bbe1a17009503305e1d4d1e
+size 20930136

requirements.txt CHANGED Viewed

@@ -1,10 +1,11 @@
-fastapi
-uvicorn
-torch
-librosa
-tensorflow
-keras
-python-multipart
-numba
-openai-whisper
-Levenshtein

+fastapi
+uvicorn
+torch
+librosa
+tensorflow
+keras
+python-multipart
+numba
+openai-whisper
+Levenshtein
+tensorflow_hub

utils.py CHANGED Viewed

@@ -1,97 +1,59 @@
 import librosa
 import numpy as np
 from keras import layers, models
-def create_cnn_model(input_shape):
-    model = models.Sequential()
-    # First Convolutional Layer
-    model.add(layers.Conv1D(32, 3, activation='relu', input_shape=input_shape))
-    model.add(layers.MaxPooling1D(pool_size=2))
-    # Second Convolutional Layer
-    model.add(layers.Conv1D(64, 3, activation='relu'))
-    model.add(layers.MaxPooling1D(pool_size=2))
-    # Flatten layer
-    model.add(layers.Flatten())
-    # Dense layers
-    model.add(layers.Dense(128, activation='relu', input_shape=input_shape))
-    model.add(layers.Dense(256, activation='relu', input_shape=input_shape))
-    model.add(layers.Dense(512, activation='relu', input_shape=input_shape))
-    model.add(layers.Dense(512, activation='relu', input_shape=input_shape))
-    model.add(layers.Dense(256, activation='relu', input_shape=input_shape))
-    model.add(layers.Dense(128, activation='relu', input_shape=input_shape))
-    # Output layer
-    model.add(layers.Dense(1, activation='sigmoid'))
-    return model
-def get_features(path, duration=6):
     try:
         # Load audio file with specific duration and offset to handle silent parts
-        data, sample_rate = librosa.load(path, duration=2.5, offset=0.6)
-    except Exception as e:
-        print(f"Error loading {path}: {e}")
-        return None  # Skip the file if there's an error
-    # Without augmentation
-    res1 = extract_features(data, sample_rate)
-    result = np.array(res1)
-    # With noise
-    noise_data = noise(data)
-    res2 = extract_features(noise_data, sample_rate)
-    result = np.vstack((result, res2))
-    # Stretching and pitching
-    new_data = stretch(data)
-    data_stretch_pitch = pitch(new_data, sample_rate)
-    res3 = extract_features(data_stretch_pitch, sample_rate)
-    result = np.vstack((result, res3))
-    return result
-def extract_features(data, sample_rate, target_shape=40):
-    result = np.array([])
-    # ZCR
-    zcr = librosa.feature.zero_crossing_rate(y=data)
-    zcr = np.mean(zcr.T, axis=0)
-    zcr = pad_or_trim(zcr, target_shape)
-    result = np.hstack((result, zcr))
-    # Chroma_stft
-    stft = np.abs(librosa.stft(data))
-    chroma_stft = librosa.feature.chroma_stft(S=stft, sr=sample_rate)
-    chroma_stft = np.mean(chroma_stft.T, axis=0)
-    chroma_stft = pad_or_trim(chroma_stft, target_shape)
-    result = np.hstack((result, chroma_stft))
-    # MFCC
-    mfcc = librosa.feature.mfcc(y=data, sr=sample_rate, n_mfcc=13)
-    mfcc = np.mean(mfcc.T, axis=0)
-    mfcc = pad_or_trim(mfcc, target_shape)
-    result = np.hstack((result, mfcc))
-    # Root Mean Square Value
-    rms = librosa.feature.rms(y=data)
-    rms = np.mean(rms.T, axis=0)
-    rms = pad_or_trim(rms, target_shape)
-    result = np.hstack((result, rms))
-    # MelSpectrogram
-    mel = librosa.feature.melspectrogram(y=data, sr=sample_rate)
-    mel = np.mean(mel.T, axis=0)
-    mel = pad_or_trim(mel, target_shape)
-    result = np.hstack((result, mel))
     return result
 def pad_or_trim(feature, target_shape):
     """Pad or trim feature array to ensure a consistent shape."""
@@ -99,16 +61,4 @@ def pad_or_trim(feature, target_shape):
         feature = feature[:target_shape]
     elif len(feature) < target_shape:
         feature = np.pad(feature, (0, target_shape - len(feature)), mode='constant')
-    return feature
-def noise(data, noise_factor=0.005):
-    noise_amp = noise_factor * np.random.uniform() * np.amax(data)
-    data = data + noise_amp * np.random.normal(size=data.shape[0])
-    return data
-def stretch(data, rate=0.8):
-    return librosa.effects.time_stretch(data, rate=rate)
-def pitch(data, sample_rate, pitch_factor=0.7):
-    return librosa.effects.pitch_shift(data, sr=sample_rate, n_steps=pitch_factor)

 import librosa
 import numpy as np
 from keras import layers, models
+from tensorflow.keras.layers import Conv1D, MaxPooling1D, BatchNormalization, Dense, Dropout, Reshape, Input, GlobalAveragePooling1D
+from tensorflow.keras.regularizers import l2
+from tensorflow.keras.models import Sequential
+import tensorflow_hub as hub
+import tensorflow as tf
+import logging
+logging.basicConfig(
+    level=logging.INFO,
+    format="%(asctime)s - %(name)s - %(levelname)s - %(message)s",
+    handlers=[logging.StreamHandler()]
+)
+# Load the embedding model globally to avoid reloading it every time
+#embedding_model = hub.load("https://www.kaggle.com/models/google/speech-embedding/TensorFlow1/speech-embedding/1")
+embedding_model = tf.saved_model.load("speech-embedding",tags=[])
+def get_features(path, duration=5):
     try:
         # Load audio file with specific duration and offset to handle silent parts
+        data, sample_rate = librosa.load(path, duration=duration, offset=0.6)
+        data = pad_or_trim(data, sample_rate * 5)
+        # Model need 16000 sample rate
+        if sample_rate != 16000:
+            data = librosa.resample(data, orig_sr=sample_rate, target_sr=16000)
+            sample_rate = 16000
+    except Exception as e:
+        logging.info(f"Error loading {path}: {e}")
+        return None
+    embeddings = extract_embeddings(np.expand_dims(data, axis=0))  # Add batch dimension
+    if embeddings is not None:
+        try:
+            result = embedding_model.signatures['default'](tf.convert_to_tensor(data))
+            result = embeddings['default'].numpy().flatten()
+        except Exception as e:
+            logging.info(f"Error extracting embedding from {path}: {e}")
+            return None
+    else:
+        return None # Fail
     return result
+def extract_embeddings(audio_samples):
+    """Extract embeddings from audio samples."""
+    try:
+        # Convert audio samples to tensor and extract embeddings
+        embeddings = embedding_model.signatures['default'](tf.convert_to_tensor(audio_samples))
+        return embeddings['default'].numpy().flatten()
+    except Exception as e:
+        logging.info(f"Error extracting embeddings: {e}")
+        return None  # Return None if there's an error
 def pad_or_trim(feature, target_shape):
     """Pad or trim feature array to ensure a consistent shape."""
         feature = feature[:target_shape]
     elif len(feature) < target_shape:
         feature = np.pad(feature, (0, target_shape - len(feature)), mode='constant')
+    return feature