Songhun
/

wav2vec2-base-960h-contrastive

@@ -37,17 +37,17 @@ feature_extractor = AutoFeatureExtractor.from_pretrained(model_name)
 3. Calculate Voice Similarity
 ```shell
-file_path1 = './sample_data/voice1.mp3'
-file_path2 = './sample_data/voice2.mp3'
 feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name)
 def load_and_process_audio(file_path, feature_extractor, max_length=4.0):
     audio, sampling_rate = librosa.load(file_path, sr=16000)
     inputs = feature_extractor(audio, sampling_rate=sampling_rate, return_tensors="pt", padding="max_length", truncation=True, max_length=int(max_length * sampling_rate))
-    return inputs.input_values.to(device)
-audio_input1 = load_and_process_audio(file_path1, feature_extractor)
-audio_input2 = load_and_process_audio(file_path2, feature_extractor)
 embedding1 = model(audio_input1).last_hidden_state.mean(dim=1)
 embedding2 = model(audio_input2).last_hidden_state.mean(dim=1)

 3. Calculate Voice Similarity
 ```shell
+file_path1 = './test1.wav'
+file_path2 = './test2.wav'
 feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name)
 def load_and_process_audio(file_path, feature_extractor, max_length=4.0):
     audio, sampling_rate = librosa.load(file_path, sr=16000)
     inputs = feature_extractor(audio, sampling_rate=sampling_rate, return_tensors="pt", padding="max_length", truncation=True, max_length=int(max_length * sampling_rate))
+    return inputs.input_values
+audio_input1 = load_and_process_audio(file_path1, feature_extractor).to(device)
+audio_input2 = load_and_process_audio(file_path2, feature_extractor).to(device)
 embedding1 = model(audio_input1).last_hidden_state.mean(dim=1)
 embedding2 = model(audio_input2).last_hidden_state.mean(dim=1)

README.md CHANGED Viewed

@@ -37,17 +37,17 @@ feature_extractor = AutoFeatureExtractor.from_pretrained(model_name)
 3. Calculate Voice Similarity
 ```shell
-file_path1 = './sample_data/voice1.mp3'
-file_path2 = './sample_data/voice2.mp3'
 feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name)
 def load_and_process_audio(file_path, feature_extractor, max_length=4.0):
     audio, sampling_rate = librosa.load(file_path, sr=16000)
     inputs = feature_extractor(audio, sampling_rate=sampling_rate, return_tensors="pt", padding="max_length", truncation=True, max_length=int(max_length * sampling_rate))
-    return inputs.input_values.to(device)
-audio_input1 = load_and_process_audio(file_path1, feature_extractor)
-audio_input2 = load_and_process_audio(file_path2, feature_extractor)
 embedding1 = model(audio_input1).last_hidden_state.mean(dim=1)
 embedding2 = model(audio_input2).last_hidden_state.mean(dim=1)

 3. Calculate Voice Similarity
 ```shell
+file_path1 = './test1.wav'
+file_path2 = './test2.wav'
 feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name)
 def load_and_process_audio(file_path, feature_extractor, max_length=4.0):
     audio, sampling_rate = librosa.load(file_path, sr=16000)
     inputs = feature_extractor(audio, sampling_rate=sampling_rate, return_tensors="pt", padding="max_length", truncation=True, max_length=int(max_length * sampling_rate))
+    return inputs.input_values
+audio_input1 = load_and_process_audio(file_path1, feature_extractor).to(device)
+audio_input2 = load_and_process_audio(file_path2, feature_extractor).to(device)
 embedding1 = model(audio_input1).last_hidden_state.mean(dim=1)
 embedding2 = model(audio_input2).last_hidden_state.mean(dim=1)