import argparse
import filecmp
import multiprocessing
import os
import subprocess
import librosa
from functools import partial
from multiprocessing import Pool, Process

import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.distributed as dist
from torch.optim import AdamW

from modules.vocoder.commons.stft_loss import MultiResolutionSTFTLoss
from modules.vocoder.hifigan.hifigan import MultiPeriodDiscriminator, MultiScaleDiscriminator, \
    generator_loss, feature_loss, discriminator_loss
from modules.vocoder.hifigan.mel_utils import mel_spectrogram
from modules.vocoder.univnet.mrd import MultiResolutionDiscriminator
from modules.tts.wavvae.decoder.wavvae_v3 import WavVAE_V3
from tasks.tts.utils.audio import torch_wav2spec
from tasks.tts.utils.audio.align import mel2token_to_dur
from utils.commons.ckpt_utils import load_ckpt
from utils.commons.hparams import hparams

from attrdict import AttrDict
from tasks.tts.dataset_mixin import TTSDatasetMixin
from utils.commons.base_task import BaseTask
from utils.commons.import_utils import import_module_bystr
from utils.nn.schedulers import WarmupSchedule, CosineSchedule


class WavVAETask(TTSDatasetMixin, BaseTask):
    def __init__(self):
        super().__init__()
        self.dataset_cls = import_module_bystr(hparams['dataset_cls'])
        self.val_dataset_cls = import_module_bystr(hparams['val_dataset_cls'])
        self.processer_fn = import_module_bystr(hparams['processer_fn'])
        self.build_fast_dataloader = import_module_bystr(hparams['build_fast_dataloader'])
        self.hparams = hparams
        self.config = AttrDict(hparams)

        # Online load mel with GPU
        sample_rate = hparams["audio_sample_rate"]
        fft_size = hparams["win_size"]
        win_size = hparams["win_size"]
        hop_size = hparams["hop_size"]
        num_mels = hparams["audio_num_mel_bins"]
        fmin = hparams["fmin"]
        fmax = hparams["fmax"]
        mel_basis = librosa.filters.mel(
            sr=sample_rate, n_fft=fft_size, n_mels=num_mels, fmin=fmin, fmax=fmax
        )
        self.torch_wav2spec_ = partial(
            torch_wav2spec, mel_basis=mel_basis, fft_size=fft_size, hop_size=hop_size, win_length=win_size,
        )

    def build_model(self):
        self.model_gen = WavVAE_V3(hparams=hparams)

        self.model_disc = torch.nn.ModuleDict()
        self.model_disc['mpd'] = MultiPeriodDiscriminator(hparams['mpd'], use_cond=hparams['use_cond_disc'])
        self.model_disc['msd'] = MultiScaleDiscriminator(use_cond=hparams['use_cond_disc'])
        if hparams['use_mrd']:
            self.model_disc['mrd'] = MultiResolutionDiscriminator(hparams)
        self.stft_loss = MultiResolutionSTFTLoss()

        load_ckpt(self.model_gen.encoder, './checkpoints/1231_megatts3_wavvae_v2_25hz', 'model.module.encoder', strict=False)
        load_ckpt(self.model_gen.decoder, './checkpoints/1117_melgan-nsf_full_1', 'model_gen', force=True, strict=True)
        load_ckpt(self.model_disc, './checkpoints/1117_melgan-nsf_full_1', 'model_disc', force=True, strict=True)
        return {'trainable': [self.model_gen, self.model_disc['mpd'], self.model_disc['msd'], self.model_disc['mrd']], 'others': []}

    def load_model(self):
        if hparams.get('load_ckpt', '') != '':
            load_ckpt(self.model, hparams['load_ckpt'], 'model', strict=False)

    def build_optimizer(self):
        optimizer_gen = torch.optim.AdamW(self.model_gen.parameters(), lr=hparams['lr'],
                                          betas=[hparams['adam_b1'], hparams['adam_b2']])
        optimizer_disc = torch.optim.AdamW(self.model_disc.parameters(),
                                           lr=hparams.get('disc_lr', hparams['lr']),
                                           betas=[hparams['adam_b1'], hparams['adam_b2']])
        return [optimizer_gen, optimizer_disc]

    def build_scheduler(self, optimizer):
        return None

    def _training_step(self, sample, batch_idx, optimizer_idx):
        log_outputs = {}
        loss_weights = {}
        sample['wavs'] = sample['wavs'].float()
        # return None, {}

        if self.global_step % 100 == 0:
            devices = os.environ.get('CUDA_VISIBLE_DEVICES', '').split(",")
            for d in devices:
                os.system(f'pkill -f "voidgpu{d}"')

        y = sample['wavs']
        loss_output = {}
        if optimizer_idx == 0:
            #######################
            #      Generator      #
            #######################
            y_, posterior = self.model_gen(y)
            y = y.unsqueeze(1)
            y_mel = mel_spectrogram(y.squeeze(1), hparams).transpose(1, 2)
            y_hat_mel = mel_spectrogram(y_.squeeze(1), hparams).transpose(1, 2)
            loss_output['mel'] = F.l1_loss(y_hat_mel, y_mel) * hparams['lambda_mel']
            if self.training:
                _, y_p_hat_g, fmap_f_r, fmap_f_g = self.model_disc['mpd'](y, y_, None)
                _, y_s_hat_g, fmap_s_r, fmap_s_g = self.model_disc['msd'](y, y_, None)
                loss_output['a_p'] = generator_loss(y_p_hat_g) * hparams['lambda_adv'] * hparams.get('lambda_mpd', 1.0)
                loss_output['a_s'] = generator_loss(y_s_hat_g) * hparams['lambda_adv'] * hparams.get('lambda_msd', 1.0)
                if hparams['use_mrd']:
                    y_r_hat_g = [x[1] for x in self.model_disc['mrd'](y_)]
                    loss_output['a_r'] = generator_loss(y_r_hat_g) \
                                         * hparams['lambda_adv'] * hparams.get('lambda_mrd', 1.0)
                if hparams['use_ms_stft']:
                    loss_output['sc'], loss_output['mag'] = self.stft_loss(y.squeeze(1), y_.squeeze(1))
                loss_output['kl_loss'] = posterior.kl().mean() * hparams.get('lambda_kl', 1.0)
            self.y_ = y_.detach()
        else:
            #######################
            #    Discriminator    #
            #######################
            if not self.training:
                return None
            y = y.unsqueeze(1)
            y_ = self.y_
            # MPD
            y_p_hat_r, y_p_hat_g, _, _ = self.model_disc['mpd'](y, y_.detach(), None)
            loss_output['r_p'], loss_output['f_p'] = discriminator_loss(y_p_hat_r, y_p_hat_g)
            # MSD
            y_s_hat_r, y_s_hat_g, _, _ = self.model_disc['msd'](y, y_.detach(), None)
            loss_output['r_s'], loss_output['f_s'] = discriminator_loss(y_s_hat_r, y_s_hat_g)
            # MRD
            if hparams['use_mrd']:
                y_r_hat_r = [x[1] for x in self.model_disc['mrd'](y)]
                y_r_hat_g = [x[1] for x in self.model_disc['mrd'](y_.detach())]
                loss_output['r_r'], loss_output['f_r'] = discriminator_loss(y_r_hat_r, y_r_hat_g)
        total_loss = sum(loss_output.values())
        loss_output['bs'] = sample['wavs'].shape[0]
        return total_loss, loss_output

    def save_valid_result(self, sample, batch_idx, model_out):
        sr = hparams['audio_sample_rate']
        mel_out = model_out.get('mel_out')
        f0 = sample.get('f0')
        f0_gt = sample.get('f0')
        if f0 is not None:
            f0_gt = f0_gt.cpu()[-1]
        if mel_out is not None:
            f0_pred = self.predict_f0(sample['mels'])
            self.plot_mel(batch_idx, sample['mels'], mel_out, f0s={'f0': f0_pred, 'f0g': f0_gt})
        # gt wav
        if self.global_step <= hparams['valid_infer_interval']:
            mel_gt = sample['mels'][-1].cpu()
            f0 = self.predict_f0(sample['mels'][-1:])
            wav_gt = self.vocoder.spec2wav(mel_gt, f0=f0)
            self.logger.add_audio(f'wav_gt_{batch_idx}', wav_gt, self.global_step, sr)

        if self.global_step >= 0:
            # with gt duration
            model_out = self.run_model(sample, infer=True, infer_use_gt_dur=True)
            # dur_info = self.get_plot_dur_info(sample, model_out)
            # del dur_info['dur_pred']
            dur_info = None

            f0 = self.predict_f0(model_out['mel_out'])
            wav_pred = self.vocoder.spec2wav(model_out['mel_out'][-1].cpu(), f0=f0)
            self.logger.add_audio(f'wav_gdur_{batch_idx}', wav_pred, self.global_step, sr)
            self.plot_mel(batch_idx, sample['mels'][-1:], model_out['mel_out'][-1], f'mel_gdur_{batch_idx}',
                          dur_info=dur_info, f0s={'f0': f0, 'f0g': f0_gt})

            # with pred duration
            if not hparams['use_gt_dur'] and not hparams['use_gt_latent']:
                model_out = self.run_model(sample, infer=True, infer_use_gt_dur=False)
                # dur_info = self.get_plot_dur_info(sample, model_out)
                dur_info = None
                f0 = self.predict_f0(model_out['mel_out'])
                self.plot_mel(
                    batch_idx, sample['mels'], model_out['mel_out'][-1], f'mel_pdur_{batch_idx}',
                    dur_info=dur_info, f0s={'f0': f0, 'f0g': f0_gt})
                wav_pred = self.vocoder.spec2wav(model_out['mel_out'][-1].cpu(), f0=f0)
                self.logger.add_audio(f'wav_pdur_{batch_idx}', wav_pred, self.global_step, sr)

    def get_plot_dur_info(self, sample, model_out):
        T_txt = sample['txt_tokens'].shape[1]
        dur_gt = mel2token_to_dur(sample['mel2ph'], T_txt)[-1]
        dur_pred = model_out['dur'] if 'dur' in model_out else dur_gt
        txt = self.token_encoder.decode(sample['txt_tokens'][-1].cpu().numpy())
        txt = txt.split(" ")
        return {'dur_gt': dur_gt, 'dur_pred': dur_pred, 'txt': txt}

    def on_before_optimization(self, opt_idx):
        if opt_idx == 0:
            nn.utils.clip_grad_norm_(self.model_gen.parameters(), hparams['generator_grad_norm'])
        else:
            nn.utils.clip_grad_norm_(self.model_disc.parameters(), hparams["discriminator_grad_norm"])

    def to(self, device=None, dtype=None):
        super().to(device=device, dtype=dtype)
        # trainer doesn't move ema to device automatically, we do it mannually
        if hparams.get('use_ema', False):
            self.ema.to(device=device, dtype=dtype)

    def cuda(self,device):
        super().cuda(device)
        if hparams.get('use_ema', False):
            self.ema.to(device=device)
    
    @torch.no_grad()
    def validation_step(self, sample, batch_idx):
        infer_steps = self.hparams.get('infer_steps', 12)
        outputs = self._validation_step(sample, batch_idx, infer_steps)
        return outputs

    def _validation_step(self, sample, batch_idx, infer_steps):
        outputs = {}
        if self.trainer.proc_rank == 0:
            # self.vae.eval()
            # with torch.inference_mode():
            #     with torch.cuda.amp.autocast(dtype=torch.bfloat16, enabled=True):
            #         lat = self.vae.get_latent(sample["mels"])
            #         lat_lens = latent_lengths.clamp(max=lat.size(1))
            # mel = self.vae.decode(lat)
            pass
            # outputs['losses'], _ = self.run_model(sample)
            # _, model_out = self.run_model(sample, infer=True, infer_steps=infer_steps)
            # outputs = tensors_to_scalars(outputs)
            # output_ldm = model_out['ldm_out']
            # T = output_ldm.shape[1]
            # ldm = sample['kps'][:, :T]  # [B, T, nkp, kp_dim] [0, 1]
            # B, T, nkp, kp_dim = ldm.shape
            # output_ldm = self.denormalize_ldm(output_ldm)
            # recon_ldm = model_out['recon_ldm']
            # recon_ldm = self.denormalize_ldm(recon_ldm)

            # results_dir = f"{hparams['work_dir']}/results/{self.global_step}_infersteps{infer_steps}_cfg{hparams['cfg_w']}"
            # os.makedirs(results_dir, exist_ok=True)
            # n_ctx = model_out['ctx_mask'][0, :, 0].sum().long().item()
            # writer_kp = imageio.get_writer(f"{results_dir}/{batch_idx:06d}_kp.sil.mp4", fps=25)
            # writer_gt = imageio.get_writer(f"{results_dir}/{batch_idx:06d}_gt.sil.mp4", fps=25)
            # writer_pred = imageio.get_writer(f"{results_dir}/{batch_idx:06d}_pred.sil.mp4", fps=25)
            # for i in range(T):
            #     img = self.draw_ldm(recon_ldm[0, i])
            #     writer_gt.append_data(img)
            #     img = self.draw_ldm(ldm[0, i])
            #     writer_kp.append_data(img)
            #     if i < n_ctx:
            #         writer_pred.append_data(img)
            #     else:
            #         img = self.draw_ldm(
            #             output_ldm[0, i], color=(255, 255, 0),
            #         )
            #         writer_pred.append_data(img)
            # writer_gt.close()
            # writer_kp.close()
            # writer_pred.close()
        return outputs

    @torch.no_grad()
    def test_step(self, sample, batch_idx):
        infer_steps = hparams['infer_steps']
        return self._validation_step(sample, batch_idx, infer_steps)