Spaces:

ymzhang319
/

FoleyCrafter

Running on Zero

App Files Files Community

FoleyCrafter / foleycrafter /models /specvqgan /data /impactset.py

ymzhang319

init

7f2690b 6 months ago

raw

history blame

30.1 kB

	import json
	import os
	import matplotlib.pyplot as plt
	import torch
	from torchvision import transforms
	import numpy as np
	from tqdm import tqdm
	from random import sample
	import torchaudio
	import logging
	from glob import glob
	import sys
	import soundfile
	import copy
	import csv
	import noisereduce as nr

	sys.path.insert(0, '.') # nopep8
	from train import instantiate_from_config
	from foleycrafter.models.specvqgan.data.transforms import *

	torchaudio.set_audio_backend("sox_io")
	logger = logging.getLogger(f'main.{__name__}')

	SR = 22050
	FPS = 15
	MAX_SAMPLE_ITER = 10

	def non_negative(x): return int(np.round(max(0, x), 0))

	def rms(x): return np.sqrt(np.mean(x**2))

	def get_GH_data_identifier(video_name, start_idx, split='_'):
	if isinstance(start_idx, str):
	return video_name + split + start_idx
	elif isinstance(start_idx, int):
	return video_name + split + str(start_idx)
	else:
	raise NotImplementedError

	def draw_spec(spec, dest, cmap='magma'):
	plt.imshow(spec, cmap=cmap, origin='lower')
	plt.axis('off')
	plt.savefig(dest, bbox_inches='tight', pad_inches=0., dpi=300)
	plt.close()

	def convert_to_decibel(arr):
	ref = 1
	return 20 * np.log10(abs(arr + 1e-4) / ref)

	class ResampleFrames(object):
	def __init__(self, feat_sample_size, times_to_repeat_after_resample=None):
	self.feat_sample_size = feat_sample_size
	self.times_to_repeat_after_resample = times_to_repeat_after_resample

	def __call__(self, item):
	feat_len = item['feature'].shape[0]

	## resample
	assert feat_len >= self.feat_sample_size
	# evenly spaced points (abcdefghkl -> aoooofoooo)
	idx = np.linspace(0, feat_len, self.feat_sample_size, dtype=np.int, endpoint=False)
	# xoooo xoooo -> ooxoo ooxoo
	shift = feat_len // (self.feat_sample_size + 1)
	idx = idx + shift

	## repeat after resampling (abc -> aaaabbbbcccc)
	if self.times_to_repeat_after_resample is not None and self.times_to_repeat_after_resample > 1:
	idx = np.repeat(idx, self.times_to_repeat_after_resample)

	item['feature'] = item['feature'][idx, :]
	return item


	class ImpactSetWave(torch.utils.data.Dataset):

	def __init__(self, split, random_crop, mel_num, spec_crop_len,
	L=2.0, denoise=False, splits_path='./data',
	data_path='data/ImpactSet/impactset-proccess-resize'):
	super().__init__()
	self.split = split
	self.splits_path = splits_path
	self.data_path = data_path
	self.L = L
	self.denoise = denoise

	video_name_split_path = os.path.join(splits_path, f'countixAV_{split}.json')
	if not os.path.exists(video_name_split_path):
	self.make_split_files()
	video_name = json.load(open(video_name_split_path, 'r'))
	self.video_frame_cnt = {v: len(os.listdir(os.path.join(self.data_path, v, 'frames'))) for v in video_name}
	self.left_over = int(FPS * L + 1)
	self.video_audio_path = {v: os.path.join(self.data_path, v, f'audio/{v}_resampled.wav') for v in video_name}
	self.dataset = video_name

	self.wav_transforms = transforms.Compose([
	MakeMono(),
	Padding(target_len=int(SR * self.L)),
	])

	self.spec_transforms = CropImage([mel_num, spec_crop_len], random_crop)

	def __len__(self):
	return len(self.dataset)

	def __getitem__(self, idx):
	item = {}
	video = self.dataset[idx]

	available_frame_idx = self.video_frame_cnt[video] - self.left_over
	wav = None
	spec = None
	max_db = -np.inf
	wave_path = ''
	cur_wave_path = self.video_audio_path[video]
	if self.denoise:
	cur_wave_path = cur_wave_path.replace('.wav', '_denoised.wav')
	for _ in range(10):
	start_idx = torch.randint(0, available_frame_idx, (1,)).tolist()[0]
	# target
	start_t = (start_idx + 0.5) / FPS
	start_audio_idx = non_negative(start_t * SR)

	cur_wav, _ = soundfile.read(cur_wave_path, frames=int(SR * self.L), start=start_audio_idx)

	decibel = convert_to_decibel(cur_wav)
	if float(np.mean(decibel)) > max_db:
	wav = cur_wav
	wave_path = cur_wave_path
	max_db = float(np.mean(decibel))
	if max_db >= -40:
	break

	# print(max_db)
	wav = self.wav_transforms(wav)
	item['image'] = wav # (80, 173)
	# item['wav'] = wav
	item['file_path_wav_'] = wave_path

	item['label'] = 'None'
	item['target'] = 'None'

	return item

	def make_split_files(self):
	raise NotImplementedError

	class ImpactSetWaveTrain(ImpactSetWave):
	def __init__(self, specs_dataset_cfg):
	super().__init__('train', **specs_dataset_cfg)

	class ImpactSetWaveValidation(ImpactSetWave):
	def __init__(self, specs_dataset_cfg):
	super().__init__('val', **specs_dataset_cfg)

	class ImpactSetWaveTest(ImpactSetWave):
	def __init__(self, specs_dataset_cfg):
	super().__init__('test', **specs_dataset_cfg)


	class ImpactSetSpec(torch.utils.data.Dataset):

	def __init__(self, split, random_crop, mel_num, spec_crop_len,
	L=2.0, denoise=False, splits_path='./data',
	data_path='data/ImpactSet/impactset-proccess-resize'):
	super().__init__()
	self.split = split
	self.splits_path = splits_path
	self.data_path = data_path
	self.L = L
	self.denoise = denoise

	video_name_split_path = os.path.join(splits_path, f'countixAV_{split}.json')
	if not os.path.exists(video_name_split_path):
	self.make_split_files()
	video_name = json.load(open(video_name_split_path, 'r'))
	self.video_frame_cnt = {v: len(os.listdir(os.path.join(self.data_path, v, 'frames'))) for v in video_name}
	self.left_over = int(FPS * L + 1)
	self.video_audio_path = {v: os.path.join(self.data_path, v, f'audio/{v}_resampled.wav') for v in video_name}
	self.dataset = video_name

	self.wav_transforms = transforms.Compose([
	MakeMono(),
	SpectrogramTorchAudio(nfft=1024, hoplen=1024//4, spec_power=1),
	MelScaleTorchAudio(sr=SR, stft=513, fmin=125, fmax=7600, nmels=80),
	LowerThresh(1e-5),
	Log10(),
	Multiply(20),
	Subtract(20),
	Add(100),
	Divide(100),
	Clip(0, 1.0),
	TrimSpec(173),
	])

	self.spec_transforms = CropImage([mel_num, spec_crop_len], random_crop)

	def __len__(self):
	return len(self.dataset)

	def __getitem__(self, idx):
	item = {}
	video = self.dataset[idx]

	available_frame_idx = self.video_frame_cnt[video] - self.left_over
	wav = None
	spec = None
	max_rms = -np.inf
	wave_path = ''
	cur_wave_path = self.video_audio_path[video]
	if self.denoise:
	cur_wave_path = cur_wave_path.replace('.wav', '_denoised.wav')
	for _ in range(10):
	start_idx = torch.randint(0, available_frame_idx, (1,)).tolist()[0]
	# target
	start_t = (start_idx + 0.5) / FPS
	start_audio_idx = non_negative(start_t * SR)

	cur_wav, _ = soundfile.read(cur_wave_path, frames=int(SR * self.L), start=start_audio_idx)

	if self.wav_transforms is not None:
	spec_tensor = self.wav_transforms(torch.tensor(cur_wav).float())
	cur_spec = spec_tensor.numpy()
	# zeros padding if not enough spec t steps
	if cur_spec.shape[1] < 173:
	pad = np.zeros((80, 173), dtype=cur_spec.dtype)
	pad[:, :cur_spec.shape[1]] = cur_spec
	cur_spec = pad
	rms_val = rms(cur_spec)
	if rms_val > max_rms:
	wav = cur_wav
	spec = cur_spec
	wave_path = cur_wave_path
	max_rms = rms_val
	# print(rms_val)
	if max_rms >= 0.1:
	break

	item['image'] = 2 * spec - 1 # (80, 173)
	# item['wav'] = wav
	item['file_path_wav_'] = wave_path

	item['label'] = 'None'
	item['target'] = 'None'

	if self.spec_transforms is not None:
	item = self.spec_transforms(item)
	return item

	def make_split_files(self):
	raise NotImplementedError

	class ImpactSetSpecTrain(ImpactSetSpec):
	def __init__(self, specs_dataset_cfg):
	super().__init__('train', **specs_dataset_cfg)

	class ImpactSetSpecValidation(ImpactSetSpec):
	def __init__(self, specs_dataset_cfg):
	super().__init__('val', **specs_dataset_cfg)

	class ImpactSetSpecTest(ImpactSetSpec):
	def __init__(self, specs_dataset_cfg):
	super().__init__('test', **specs_dataset_cfg)



	class ImpactSetWaveTestTime(torch.utils.data.Dataset):

	def __init__(self, split, random_crop, mel_num, spec_crop_len,
	L=2.0, denoise=False, splits_path='./data',
	data_path='data/ImpactSet/impactset-proccess-resize'):
	super().__init__()
	self.split = split
	self.splits_path = splits_path
	self.data_path = data_path
	self.L = L
	self.denoise = denoise

	self.video_list = glob('data/ImpactSet/RawVideos/StockVideo_sound/*.wav') + [
	'data/ImpactSet/RawVideos/YouTube-impact-ccl/1_ckbCU5aQs/1_ckbCU5aQs_0013_0016_resize.wav',
	'data/ImpactSet/RawVideos/YouTube-impact-ccl/GFmuVBiwz6k/GFmuVBiwz6k_0034_0054_resize.wav',
	'data/ImpactSet/RawVideos/YouTube-impact-ccl/OsPcY316h1M/OsPcY316h1M_0000_0005_resize.wav',
	'data/ImpactSet/RawVideos/YouTube-impact-ccl/SExIpBIBj_k/SExIpBIBj_k_0009_0019_resize.wav',
	'data/ImpactSet/RawVideos/YouTube-impact-ccl/S6TkbV4B4QI/S6TkbV4B4QI_0028_0036_resize.wav',
	'data/ImpactSet/RawVideos/YouTube-impact-ccl/2Ld24pPIn3k/2Ld24pPIn3k_0005_0011_resize.wav',
	'data/ImpactSet/RawVideos/YouTube-impact-ccl/6d1YS7fdBK4/6d1YS7fdBK4_0007_0019_resize.wav',
	'data/ImpactSet/RawVideos/YouTube-impact-ccl/JnBsmJgEkiw/JnBsmJgEkiw_0008_0016_resize.wav',
	'data/ImpactSet/RawVideos/YouTube-impact-ccl/xcUyiXt0gjo/xcUyiXt0gjo_0015_0021_resize.wav',
	'data/ImpactSet/RawVideos/YouTube-impact-ccl/4DRFJnZjpMM/4DRFJnZjpMM_0000_0010_resize.wav'
	] + glob('data/ImpactSet/RawVideos/self_recorded/*_resize.wav')

	self.wav_transforms = transforms.Compose([
	MakeMono(),
	SpectrogramTorchAudio(nfft=1024, hoplen=1024//4, spec_power=1),
	MelScaleTorchAudio(sr=SR, stft=513, fmin=125, fmax=7600, nmels=80),
	LowerThresh(1e-5),
	Log10(),
	Multiply(20),
	Subtract(20),
	Add(100),
	Divide(100),
	Clip(0, 1.0),
	TrimSpec(173),
	])
	self.spec_transforms = CropImage([mel_num, spec_crop_len], random_crop)

	def __len__(self):
	return len(self.video_list)

	def __getitem__(self, idx):
	item = {}

	wave_path = self.video_list[idx]

	wav, _ = soundfile.read(wave_path)
	start_idx = random.randint(0, min(4, wav.shape[0] - int(SR * self.L)))
	wav = wav[start_idx:start_idx+int(SR * self.L)]

	if self.denoise:
	if len(wav.shape) == 1:
	wav = wav[None, :]
	wav = nr.reduce_noise(y=wav, sr=SR, n_fft=1024, hop_length=1024//4)
	wav = wav.squeeze()
	if self.wav_transforms is not None:
	spec_tensor = self.wav_transforms(torch.tensor(wav).float())
	spec = spec_tensor.numpy()
	if spec.shape[1] < 173:
	pad = np.zeros((80, 173), dtype=spec.dtype)
	pad[:, :spec.shape[1]] = spec
	spec = pad

	item['image'] = 2 * spec - 1 # (80, 173)
	# item['wav'] = wav
	item['file_path_wav_'] = wave_path

	item['label'] = 'None'
	item['target'] = 'None'

	if self.spec_transforms is not None:
	item = self.spec_transforms(item)
	return item

	def make_split_files(self):
	raise NotImplementedError

	class ImpactSetWaveTestTimeTrain(ImpactSetWaveTestTime):
	def __init__(self, specs_dataset_cfg):
	super().__init__('train', **specs_dataset_cfg)

	class ImpactSetWaveTestTimeValidation(ImpactSetWaveTestTime):
	def __init__(self, specs_dataset_cfg):
	super().__init__('val', **specs_dataset_cfg)

	class ImpactSetWaveTestTimeTest(ImpactSetWaveTestTime):
	def __init__(self, specs_dataset_cfg):
	super().__init__('test', **specs_dataset_cfg)


	class ImpactSetWaveWithSilent(torch.utils.data.Dataset):

	def __init__(self, split, random_crop, mel_num, spec_crop_len,
	L=2.0, denoise=False, splits_path='./data',
	data_path='data/ImpactSet/impactset-proccess-resize'):
	super().__init__()
	self.split = split
	self.splits_path = splits_path
	self.data_path = data_path
	self.L = L
	self.denoise = denoise

	video_name_split_path = os.path.join(splits_path, f'countixAV_{split}.json')
	if not os.path.exists(video_name_split_path):
	self.make_split_files()
	video_name = json.load(open(video_name_split_path, 'r'))
	self.video_frame_cnt = {v: len(os.listdir(os.path.join(self.data_path, v, 'frames'))) for v in video_name}
	self.left_over = int(FPS * L + 1)
	self.video_audio_path = {v: os.path.join(self.data_path, v, f'audio/{v}_resampled.wav') for v in video_name}
	self.dataset = video_name

	self.wav_transforms = transforms.Compose([
	MakeMono(),
	Padding(target_len=int(SR * self.L)),
	])

	self.spec_transforms = CropImage([mel_num, spec_crop_len], random_crop)

	def __len__(self):
	return len(self.dataset)

	def __getitem__(self, idx):
	item = {}
	video = self.dataset[idx]

	available_frame_idx = self.video_frame_cnt[video] - self.left_over
	wave_path = self.video_audio_path[video]
	if self.denoise:
	wave_path = wave_path.replace('.wav', '_denoised.wav')
	start_idx = torch.randint(0, available_frame_idx, (1,)).tolist()[0]
	# target
	start_t = (start_idx + 0.5) / FPS
	start_audio_idx = non_negative(start_t * SR)

	wav, _ = soundfile.read(wave_path, frames=int(SR * self.L), start=start_audio_idx)

	wav = self.wav_transforms(wav)

	item['image'] = wav # (44100,)
	# item['wav'] = wav
	item['file_path_wav_'] = wave_path

	item['label'] = 'None'
	item['target'] = 'None'
	return item

	def make_split_files(self):
	raise NotImplementedError

	class ImpactSetWaveWithSilentTrain(ImpactSetWaveWithSilent):
	def __init__(self, specs_dataset_cfg):
	super().__init__('train', **specs_dataset_cfg)

	class ImpactSetWaveWithSilentValidation(ImpactSetWaveWithSilent):
	def __init__(self, specs_dataset_cfg):
	super().__init__('val', **specs_dataset_cfg)

	class ImpactSetWaveWithSilentTest(ImpactSetWaveWithSilent):
	def __init__(self, specs_dataset_cfg):
	super().__init__('test', **specs_dataset_cfg)


	class ImpactSetWaveCondOnImage(torch.utils.data.Dataset):

	def __init__(self, split,
	L=2.0, frame_transforms=None, denoise=False, splits_path='./data',
	data_path='data/ImpactSet/impactset-proccess-resize',
	p_outside_cond=0.):
	super().__init__()
	self.split = split
	self.splits_path = splits_path
	self.frame_transforms = frame_transforms
	self.data_path = data_path
	self.L = L
	self.denoise = denoise
	self.p_outside_cond = torch.tensor(p_outside_cond)

	video_name_split_path = os.path.join(splits_path, f'countixAV_{split}.json')
	if not os.path.exists(video_name_split_path):
	self.make_split_files()
	video_name = json.load(open(video_name_split_path, 'r'))
	self.video_frame_cnt = {v: len(os.listdir(os.path.join(self.data_path, v, 'frames'))) for v in video_name}
	self.left_over = int(FPS * L + 1)
	for v, cnt in self.video_frame_cnt.items():
	if cnt - (3*self.left_over) <= 0:
	video_name.remove(v)
	self.video_audio_path = {v: os.path.join(self.data_path, v, f'audio/{v}_resampled.wav') for v in video_name}
	self.dataset = video_name

	video_timing_split_path = os.path.join(splits_path, f'countixAV_{split}_timing.json')
	self.video_timing = json.load(open(video_timing_split_path, 'r'))
	self.video_timing = {v: [int(float(t) * FPS) for t in ts] for v, ts in self.video_timing.items()}

	if split != 'test':
	video_class_path = os.path.join(splits_path, f'countixAV_{split}_class.json')
	if not os.path.exists(video_class_path):
	self.make_video_class()
	self.video_class = json.load(open(video_class_path, 'r'))
	self.class2video = {}
	for v, c in self.video_class.items():
	if c not in self.class2video.keys():
	self.class2video[c] = []
	self.class2video[c].append(v)

	self.wav_transforms = transforms.Compose([
	MakeMono(),
	Padding(target_len=int(SR * self.L)),
	])
	if self.frame_transforms == None:
	self.frame_transforms = transforms.Compose([
	Resize3D(128),
	RandomResizedCrop3D(112, scale=(0.5, 1.0)),
	RandomHorizontalFlip3D(),
	ColorJitter3D(brightness=0.1, saturation=0.1),
	ToTensor3D(),
	Normalize3D(mean=[0.485, 0.456, 0.406],
	std=[0.229, 0.224, 0.225]),
	])

	def make_video_class(self):
	meta_path = f'data/ImpactSet/data-info/CountixAV_{self.split}.csv'
	video_class = {}
	with open(meta_path, 'r') as f:
	reader = csv.reader(f)
	for i, row in enumerate(reader):
	if i == 0:
	continue
	vid, k_st, k_et = row[:3]
	video_name = f'{vid}_{int(k_st):0>4d}_{int(k_et):0>4d}'
	if video_name not in self.dataset:
	continue
	video_class[video_name] = row[-1]
	with open(os.path.join(self.splits_path, f'countixAV_{self.split}_class.json'), 'w') as f:
	json.dump(video_class, f)

	def __len__(self):
	return len(self.dataset)

	def __getitem__(self, idx):
	item = {}
	video = self.dataset[idx]

	available_frame_idx = self.video_frame_cnt[video] - self.left_over
	rep_start_idx, rep_end_idx = self.video_timing[video]
	rep_end_idx = min(available_frame_idx, rep_end_idx)
	if available_frame_idx <= rep_start_idx + self.L * FPS:
	idx_set = list(range(0, available_frame_idx))
	else:
	idx_set = list(range(rep_start_idx, rep_end_idx))
	start_idx = sample(idx_set, k=1)[0]

	wave_path = self.video_audio_path[video]
	if self.denoise:
	wave_path = wave_path.replace('.wav', '_denoised.wav')

	# target
	start_t = (start_idx + 0.5) / FPS
	end_idx= non_negative(start_idx + FPS * self.L)
	start_audio_idx = non_negative(start_t * SR)
	wav, sr = soundfile.read(wave_path, frames=int(SR * self.L), start=start_audio_idx)
	assert sr == SR
	wav = self.wav_transforms(wav)
	frame_path = os.path.join(self.data_path, video, 'frames')
	frames = [Image.open(os.path.join(
	frame_path, f'frame{i+1:0>6d}.jpg')).convert('RGB') for i in
	range(start_idx, end_idx)]

	if torch.all(torch.bernoulli(self.p_outside_cond) == 1.) and self.split != 'test':
	# outside from the same class
	cur_class = self.video_class[video]
	tmp_video = copy.copy(self.class2video[cur_class])
	if len(tmp_video) > 1:
	# if only 1 video in the class, use itself
	tmp_video.remove(video)
	cond_video = sample(tmp_video, k=1)[0]
	cond_available_frame_idx = self.video_frame_cnt[cond_video] - self.left_over
	cond_start_idx = torch.randint(0, cond_available_frame_idx, (1,)).tolist()[0]
	else:
	cond_video = video
	idx_set = list(range(0, start_idx)) + list(range(end_idx, available_frame_idx))
	cond_start_idx = random.sample(idx_set, k=1)[0]

	cond_end_idx = non_negative(cond_start_idx + FPS * self.L)
	cond_start_t = (cond_start_idx + 0.5) / FPS
	cond_audio_idx = non_negative(cond_start_t * SR)
	cond_frame_path = os.path.join(self.data_path, cond_video, 'frames')
	cond_wave_path = self.video_audio_path[cond_video]

	cond_frames = [Image.open(os.path.join(
	cond_frame_path, f'frame{i+1:0>6d}.jpg')).convert('RGB') for i in
	range(cond_start_idx, cond_end_idx)]
	cond_wav, sr = soundfile.read(cond_wave_path, frames=int(SR * self.L), start=cond_audio_idx)
	assert sr == SR
	cond_wav = self.wav_transforms(cond_wav)

	item['image'] = wav # (44100,)
	item['cond_image'] = cond_wav # (44100,)
	item['file_path_wav_'] = wave_path
	item['file_path_cond_wav_'] = cond_wave_path

	if self.frame_transforms is not None:
	cond_frames = self.frame_transforms(cond_frames)
	frames = self.frame_transforms(frames)

	item['feature'] = np.stack(cond_frames + frames, axis=0) # (30 * L, 112, 112, 3)
	item['file_path_feats_'] = (frame_path, start_idx)
	item['file_path_cond_feats_'] = (cond_frame_path, cond_start_idx)

	item['label'] = 'None'
	item['target'] = 'None'

	return item

	def make_split_files(self):
	raise NotImplementedError


	class ImpactSetWaveCondOnImageTrain(ImpactSetWaveCondOnImage):
	def __init__(self, dataset_cfg):
	train_transforms = transforms.Compose([
	Resize3D(128),
	RandomResizedCrop3D(112, scale=(0.5, 1.0)),
	RandomHorizontalFlip3D(),
	ColorJitter3D(brightness=0.4, saturation=0.4, contrast=0.2, hue=0.1),
	ToTensor3D(),
	Normalize3D(mean=[0.485, 0.456, 0.406],
	std=[0.229, 0.224, 0.225]),
	])
	super().__init__('train', frame_transforms=train_transforms, **dataset_cfg)

	class ImpactSetWaveCondOnImageValidation(ImpactSetWaveCondOnImage):
	def __init__(self, dataset_cfg):
	valid_transforms = transforms.Compose([
	Resize3D(128),
	CenterCrop3D(112),
	ToTensor3D(),
	Normalize3D(mean=[0.485, 0.456, 0.406],
	std=[0.229, 0.224, 0.225]),
	])
	super().__init__('val', frame_transforms=valid_transforms, **dataset_cfg)

	class ImpactSetWaveCondOnImageTest(ImpactSetWaveCondOnImage):
	def __init__(self, dataset_cfg):
	test_transforms = transforms.Compose([
	Resize3D(128),
	CenterCrop3D(112),
	ToTensor3D(),
	Normalize3D(mean=[0.485, 0.456, 0.406],
	std=[0.229, 0.224, 0.225]),
	])
	super().__init__('test', frame_transforms=test_transforms, **dataset_cfg)



	class ImpactSetCleanWaveCondOnImage(ImpactSetWaveCondOnImage):
	def __init__(self, split, L=2, frame_transforms=None, denoise=False, splits_path='./data', data_path='data/ImpactSet/impactset-proccess-resize', p_outside_cond=0):
	super().__init__(split, L, frame_transforms, denoise, splits_path, data_path, p_outside_cond)
	pred_timing_path = f'data/countixAV_{split}_timing_processed_0.20.json'
	assert os.path.exists(pred_timing_path)
	self.pred_timing = json.load(open(pred_timing_path, 'r'))

	self.dataset = []
	for v, ts in self.pred_timing.items():
	if v in self.video_audio_path.keys():
	for t in ts:
	self.dataset.append([v, t])

	def __getitem__(self, idx):
	item = {}
	video, start_t = self.dataset[idx]
	available_frame_idx = self.video_frame_cnt[video] - self.left_over
	available_timing = (available_frame_idx + 0.5) / FPS
	start_t = float(start_t)
	start_t = min(start_t, available_timing)

	start_idx = non_negative(start_t * FPS - 0.5)

	wave_path = self.video_audio_path[video]
	if self.denoise:
	wave_path = wave_path.replace('.wav', '_denoised.wav')

	# target
	end_idx= non_negative(start_idx + FPS * self.L)
	start_audio_idx = non_negative(start_t * SR)
	wav, sr = soundfile.read(wave_path, frames=int(SR * self.L), start=start_audio_idx)
	assert sr == SR
	wav = self.wav_transforms(wav)
	frame_path = os.path.join(self.data_path, video, 'frames')
	frames = [Image.open(os.path.join(
	frame_path, f'frame{i+1:0>6d}.jpg')).convert('RGB') for i in
	range(start_idx, end_idx)]

	if torch.all(torch.bernoulli(self.p_outside_cond) == 1.):
	other_video = list(self.pred_timing.keys())
	other_video.remove(video)
	cond_video = sample(other_video, k=1)[0]
	cond_available_frame_idx = self.video_frame_cnt[cond_video] - self.left_over
	cond_available_timing = (cond_available_frame_idx + 0.5) / FPS
	else:
	cond_video = video
	cond_available_timing = available_timing

	cond_start_t = sample(self.pred_timing[cond_video], k=1)[0]
	cond_start_t = float(cond_start_t)
	cond_start_t = min(cond_start_t, cond_available_timing)
	cond_start_idx = non_negative(cond_start_t * FPS - 0.5)
	cond_end_idx = non_negative(cond_start_idx + FPS * self.L)
	cond_audio_idx = non_negative(cond_start_t * SR)
	cond_frame_path = os.path.join(self.data_path, cond_video, 'frames')
	cond_wave_path = self.video_audio_path[cond_video]

	cond_frames = [Image.open(os.path.join(
	cond_frame_path, f'frame{i+1:0>6d}.jpg')).convert('RGB') for i in
	range(cond_start_idx, cond_end_idx)]
	cond_wav, sr = soundfile.read(cond_wave_path, frames=int(SR * self.L), start=cond_audio_idx)
	assert sr == SR
	cond_wav = self.wav_transforms(cond_wav)

	item['image'] = wav # (44100,)
	item['cond_image'] = cond_wav # (44100,)
	item['file_path_wav_'] = wave_path
	item['file_path_cond_wav_'] = cond_wave_path

	if self.frame_transforms is not None:
	cond_frames = self.frame_transforms(cond_frames)
	frames = self.frame_transforms(frames)

	item['feature'] = np.stack(cond_frames + frames, axis=0) # (30 * L, 112, 112, 3)
	item['file_path_feats_'] = (frame_path, start_idx)
	item['file_path_cond_feats_'] = (cond_frame_path, cond_start_idx)

	item['label'] = 'None'
	item['target'] = 'None'

	return item


	class ImpactSetCleanWaveCondOnImageTrain(ImpactSetCleanWaveCondOnImage):
	def __init__(self, dataset_cfg):
	train_transforms = transforms.Compose([
	Resize3D(128),
	RandomResizedCrop3D(112, scale=(0.5, 1.0)),
	RandomHorizontalFlip3D(),
	ColorJitter3D(brightness=0.4, saturation=0.4, contrast=0.2, hue=0.1),
	ToTensor3D(),
	Normalize3D(mean=[0.485, 0.456, 0.406],
	std=[0.229, 0.224, 0.225]),
	])
	super().__init__('train', frame_transforms=train_transforms, **dataset_cfg)

	class ImpactSetCleanWaveCondOnImageValidation(ImpactSetCleanWaveCondOnImage):
	def __init__(self, dataset_cfg):
	valid_transforms = transforms.Compose([
	Resize3D(128),
	CenterCrop3D(112),
	ToTensor3D(),
	Normalize3D(mean=[0.485, 0.456, 0.406],
	std=[0.229, 0.224, 0.225]),
	])
	super().__init__('val', frame_transforms=valid_transforms, **dataset_cfg)

	class ImpactSetCleanWaveCondOnImageTest(ImpactSetCleanWaveCondOnImage):
	def __init__(self, dataset_cfg):
	test_transforms = transforms.Compose([
	Resize3D(128),
	CenterCrop3D(112),
	ToTensor3D(),
	Normalize3D(mean=[0.485, 0.456, 0.406],
	std=[0.229, 0.224, 0.225]),
	])
	super().__init__('test', frame_transforms=test_transforms, **dataset_cfg)


	if __name__ == '__main__':
	import sys

	from omegaconf import OmegaConf
	cfg = OmegaConf.load('configs/countixAV_transformer_denoise_clean.yaml')
	data = instantiate_from_config(cfg.data)
	data.prepare_data()
	data.setup()

	print(data.datasets['train'])
	print(len(data.datasets['train']))
	# print(data.datasets['train'][24])
	exit()

	stats = []
	torch.manual_seed(0)
	np.random.seed(0)
	random.seed = 0
	for k in range(1):
	x = np.arange(SR * 2)
	for i in tqdm(range(len(data.datasets['train']))):
	wav = data.datasets['train'][i]['wav']
	spec = data.datasets['train'][i]['image']
	spec = 0.5 * (spec + 1)
	spec_rms = rms(spec)
	stats.append(float(spec_rms))
	# plt.plot(x, wav)
	# plt.ylim(-1, 1)
	# plt.savefig(f'tmp/th0.1_wav_e_{k}_{i}_{mean_val:.3f}_{spec_rms:.3f}.png')
	# plt.close()
	# plt.cla()
	soundfile.write(f'tmp/wav_e_{k}_{i}_{spec_rms:.3f}.wav', wav, SR)
	draw_spec(spec, f'tmp/wav_spec_e_{k}_{i}_{spec_rms:.3f}.png')
	if i == 100:
	break
	# plt.hist(stats, bins=50)
	# plt.savefig(f'tmp/rms_spec_stats.png')