Duplicate from ResembleAI/resemble-enhance

Browse files

Co-authored-by: Zhe Niu <enhuiz@users.noreply.huggingface.co>

Files changed (8) hide show

.gitattributes +38 -0
Archived Speech.mp4 +3 -0
Background Music.mp4 +3 -0
README.md +19 -0
Street Noise.mp4 +3 -0
enhancer_stage2/ds/G/default/mp_rank_00_model_states.pt +3 -0
enhancer_stage2/ds/G/latest +1 -0
enhancer_stage2/hparams.yaml +38 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,38 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+Archived[[:space:]]Speech.mp4 filter=lfs diff=lfs merge=lfs -text
+Background[[:space:]]Music.mp4 filter=lfs diff=lfs merge=lfs -text
+Street[[:space:]]Noise.mp4 filter=lfs diff=lfs merge=lfs -text

Archived Speech.mp4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:695be2e390da5f10187a2b34789ec82ca55a0fe727614dddd50e5b419f6a1687
+size 33300779

Background Music.mp4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:528601427e0a95dfe3b7e08fec399c3e3142946cdb6cfbcc33de79aaefb08e1b
+size 33738329

README.md ADDED Viewed

	@@ -0,0 +1,19 @@

+---
+license: mit
+language:
+- en
+pipeline_tag: audio-to-audio
+tags:
+- speech-enhancement
+- speech-denoising
+---
+Resemble Enhance is an AI-powered tool that aims to improve the overall quality of speech by performing denoising and enhancement. It consists of two modules: a denoiser, which separates speech from a noisy audio, and an enhancer, which further boosts the perceptual audio quality by restoring audio distortions and extending the audio bandwidth. The two models are trained on high-quality 44.1kHz speech data that guarantees the enhancement of your speech with high quality.
+Below are three videos with separate examples of Resemble Enhance's denoiser module and then enhancer module improving speech quality.
+Background Music - https://youtu.be/gl--IMtQ0XQ
+Street Noise - https://youtu.be/zC87BjtsZVA
+Archived Speech - https://youtu.be/6dALaLMJhSQ

Street Noise.mp4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39d0f09cbb894b65013e09cfe003a393b38242120afe4f163d79f78ec965e0c3
+size 30024648

enhancer_stage2/ds/G/default/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9d035f318de3e6d919bc70cf7ad7d32b4fe92ec5cbe0b30029a27f5db07d9d6
+size 713176232

enhancer_stage2/ds/G/latest ADDED Viewed

	@@ -0,0 +1 @@


1	+ default

enhancer_stage2/hparams.yaml ADDED Viewed

	@@ -0,0 +1,38 @@

+fg_dir: !!python/object/apply:pathlib.PosixPath
+- data
+- fg
+bg_dir: !!python/object/apply:pathlib.PosixPath
+- data
+- bg
+rir_dir: !!python/object/apply:pathlib.PosixPath
+- data
+- rir
+load_fg_only: false
+wav_rate: 44100
+n_fft: 2048
+win_size: 2048
+hop_size: 420
+num_mels: 128
+stft_magnitude_min: 0.0001
+preemphasis: 0.97
+mix_alpha_range:
+- 0.2
+- 0.8
+nj: 64
+training_seconds: 3.0
+batch_size_per_gpu: 32
+min_lr: 1.0e-05
+max_lr: 0.0001
+warmup_steps: 1000
+max_steps: 1000000
+gradient_clipping: 1.0
+cfm_solver_method: midpoint
+cfm_solver_nfe: 64
+cfm_time_mapping_divisor: 4
+univnet_nc: 96
+lcfm_latent_dim: 64
+lcfm_training_mode: cfm
+lcfm_z_scale: 6
+vocoder_extra_dim: 32
+gan_training_start_step: null
+praat_augment_prob: 0.2