LAKH-MIDI-Dataset-Search

Running

asigalov61 commited on Jul 16, 2024

Commit

bd71b6f

•

1 Parent(s): 77c722a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# https://huggingface.co/spaces/asigalov61/MIDI-Search
 import os
@@ -36,21 +36,12 @@ def find_midi(input_search_string):
     start_time = reqtime.time()
     print('-' * 70)
-    print('Req title:', title)
-    print('Req artist:', artist)
     print('-' * 70)
-    input_text = ''
-    if title != '':
-        input_text += title
-    if artist != '':
-        input_text += ' by ' + artist
     print('Searching...')
-    query_embedding = model.encode([input_text])
     # Compute cosine similarity between query and each sentence in the corpus
     similarities = util.cos_sim(query_embedding, corpus_embeddings)
@@ -59,7 +50,7 @@ def find_midi(input_search_string):
     # Find the index of the most similar sentence
     closest_index = np.argmax(similarities)
-    closest_index_match_ratio = max(similarities[0]).tolist()
     best_corpus_match = all_MIDI_files_names[closest_index]
@@ -227,11 +218,13 @@ if __name__ == "__main__":
     print('Loading MidiCaps dataset...')
     mc_dataset = load_dataset("amaai-lab/MidiCaps")
     print('=' * 70)
     print('Loading files list...')
     all_MIDI_files_names = TMIDIX.Tegridy_Any_Pickle_File_Reader('LAKH_all_files_names')
     print('=' * 70)
     print('Loading MIDI corpus embeddings...')

+# https://huggingface.co/spaces/asigalov61/LAKH-MIDI-Dataset-Search
 import os
     start_time = reqtime.time()
     print('-' * 70)
+    print('Req search str:', input_search_string)
     print('-' * 70)
     print('Searching...')
+    query_embedding = model.encode([input_search_string])
     # Compute cosine similarity between query and each sentence in the corpus
     similarities = util.cos_sim(query_embedding, corpus_embeddings)
     # Find the index of the most similar sentence
     closest_index = np.argmax(similarities)
+    closest_index_match_ratio = max(similarities[0].tolist())
     best_corpus_match = all_MIDI_files_names[closest_index]
     print('Loading MidiCaps dataset...')
     mc_dataset = load_dataset("amaai-lab/MidiCaps")
+    mc_fnames = [f['location'].split('/')[-1].split('.mid')[0] for f in mc_dataset['train']]
     print('=' * 70)
     print('Loading files list...')
     all_MIDI_files_names = TMIDIX.Tegridy_Any_Pickle_File_Reader('LAKH_all_files_names')
+    MIDI_files_names = [f[0] for f in all_MIDI_files_names]
     print('=' * 70)
     print('Loading MIDI corpus embeddings...')