metadata

language:
  - en
tags:
  - AudioClassification
datasets:
  - marsyas/gtzan
metrics:
  - accuracy

Audio Classification

This repo contains code and notes for this tutorial.

Dataset

GTZAN is used.

export HUGGINGFACE_TOKEN=<your_token>
python main.py

Acc: 0.81 (default setting)

🤗 Datasets support train_test_split() method to split the dataset.
feature_extractor can not handle resampling
- To resample, one can use dataset.map()

from datasets import Audio

gtzan = gtzan.cast_column("audio", Audio(sampling_rate=feature_extractor.sampling_rate))

feature_extractor do the normalization and returns input_values and attention_mask.
.map() support batched preprocess.
Why AutoModelForAudioClassification.from_pretrained takes label2id and id2label?