Custom-Shakespeare / train_get2_8_init.py

Upload train_get2_8_init.py

7347c7e verified about 1 month ago

11.3 kB

	import os
	import math
	import time
	import torch
	import torch.nn as nn
	from torch.nn import functional as F
	import wandb
	import gradio as gr
	from tqdm import tqdm
	import tiktoken
	from transformer import GPT, GPTConfig # Import from transformer.py instead
	from torch.cuda.amp import autocast, GradScaler

	# DataLoader class for handling input.txt
	class DataLoaderLite:
	def __init__(self, B, T, config):
	self.B = B
	self.T = T
	self.config = config

	# Load and tokenize input.txt
	with open('input.txt', 'r', encoding='utf-8') as f:
	text = f.read()

	enc = tiktoken.get_encoding('gpt2')
	self.tokens = torch.tensor(enc.encode(text), dtype=torch.long)

	# Create dataset chunks for faster loading
	self.data = []
	for i in range(0, len(self.tokens) - T, B * T):
	chunk = self.tokens[i:i + B * T + 1]
	if len(chunk) == B * T + 1:
	self.data.append(chunk)

	print(f'Loaded {len(self.tokens)} tokens')
	print(f'Created {len(self.data)} batches')

	self.current_idx = 0

	def next_batch(self):
	chunk = self.data[self.current_idx]
	x = chunk[:-1].view(self.B, self.T)
	y = chunk[1:].view(self.B, self.T)

	self.current_idx = (self.current_idx + 1) % len(self.data)

	if self.config.pin_memory:
	x = x.pin_memory()
	y = y.pin_memory()

	return x, y

	class TrainingConfig:
	def __init__(self):
	# Smaller model architecture (~30M params)
	self.n_layer = 4 # Further reduced
	self.n_head = 8
	self.n_embd = 384 # Further reduced
	self.block_size = 256
	self.dropout = 0.2 # Increased dropout for better regularization

	# Optimized training hyperparameters for faster convergence
	self.learning_rate = 1e-4 # Reduced learning rate for stability
	self.max_iters = 50000 # Increased max iterations
	self.batch_size = 4 # Reduced batch size
	self.grad_clip = 0.5 # Reduced gradient clipping
	self.weight_decay = 0.1
	self.betas = (0.9, 0.95)
	self.warmup_iters = 2000
	self.lr_decay_iters = 40000 # Increased decay iterations
	self.min_lr = 1e-5
	self.eval_interval = 100 # More frequent evaluation
	self.eval_iters = 20

	# Performance optimization flags
	self.device = 'cuda' if torch.cuda.is_available() else 'cpu'
	self.gradient_checkpointing = True
	self.mixed_precision = True
	self.gradient_accumulation_steps = 8 # Increased for effective batch size
	self.num_workers = 4
	self.pin_memory = True

	# Check if Triton is available before enabling compile
	try:
	import triton
	self.compile_model = True
	except ImportError:
	print("Triton not available, disabling model compilation")
	self.compile_model = False

	class TrainingLogger:
	def __init__(self, log_file='training_log.txt'):
	self.log_file = log_file
	self.start_time = time.time()
	# Initialize log file
	with open(self.log_file, 'w') as f:
	f.write("Training Log\n")
	f.write("=" * 50 + "\n")
	f.write(f"Training started at: {time.strftime('%Y-%m-%d %H:%M:%S')}\n\n")
	f.write("Iteration \| Train Loss \| Val Loss \| Learning Rate \| Tokens/sec\n")
	f.write("-" * 65 + "\n")

	def log_step(self, iter_num, train_loss, val_loss, lr, tokens_per_sec):
	log_line = f"{iter_num:>9} \| {train_loss:>10.4f} \| {val_loss:>8.4f} \| {lr:>12.2e} \| {tokens_per_sec:>9.2f}"
	print(log_line)
	with open(self.log_file, 'a') as f:
	f.write(log_line + "\n")

	def log_message(self, message):
	print(message)
	with open(self.log_file, 'a') as f:
	f.write("\n" + message + "\n")

	def finish(self):
	total_time = (time.time() - self.start_time) / 3600 # Convert to hours
	message = f"\nTraining completed in {total_time:.2f} hours"
	self.log_message(message)

	def get_lr(it, config):
	if it < config.warmup_iters:
	return config.learning_rate * it / config.warmup_iters
	if it > config.lr_decay_iters:
	return config.min_lr
	decay_ratio = (it - config.warmup_iters) / (config.lr_decay_iters - config.warmup_iters)
	assert 0 <= decay_ratio <= 1
	coeff = 0.5 * (1.0 + math.cos(math.pi * decay_ratio))
	return config.min_lr + coeff * (config.learning_rate - config.min_lr)

	def evaluate_loss(model, train_loader, config):
	model.eval()
	total_loss = 0.0
	with torch.no_grad():
	for _ in range(config.eval_iters):
	x, y = train_loader.next_batch()
	x, y = x.to(config.device), y.to(config.device)
	_, loss = model(x, y)
	total_loss += loss.item()
	model.train()
	return total_loss / config.eval_iters

	def train_model():
	config = TrainingConfig()
	logger = TrainingLogger()

	# Create and optimize model
	model_config = GPTConfig(
	block_size=config.block_size,
	n_layer=config.n_layer,
	n_head=config.n_head,
	n_embd=config.n_embd,
	dropout=config.dropout
	)
	model = GPT(model_config)

	if config.compile_model and hasattr(torch, 'compile'):
	try:
	model = torch.compile(model)
	logger.log_message("Model compilation successful")
	except Exception as e:
	logger.log_message(f"Model compilation failed: {e}")
	logger.log_message("Continuing without compilation")

	if config.gradient_checkpointing:
	model.gradient_checkpointing_enable()

	model.to(config.device)
	logger.log_message(f"Number of parameters: {sum(p.numel() for p in model.parameters())/1e6:.2f}M")

	optimizer = torch.optim.AdamW(
	model.parameters(),
	lr=config.learning_rate,
	betas=config.betas,
	weight_decay=config.weight_decay
	)

	train_loader = DataLoaderLite(B=config.batch_size, T=config.block_size, config=config)
	scaler = GradScaler() if config.mixed_precision else None

	best_val_loss = float('inf')
	no_improvement_count = 0

	for iter in tqdm(range(config.max_iters)):
	iter_start = time.time()

	# Training step
	x, y = train_loader.next_batch()
	x, y = x.to(config.device, non_blocking=True), y.to(config.device, non_blocking=True)

	lr = get_lr(iter, config)
	for param_group in optimizer.param_groups:
	param_group['lr'] = lr

	if config.mixed_precision:
	with autocast():
	logits, loss = model(x, y)
	loss = loss / config.gradient_accumulation_steps
	scaler.scale(loss).backward()

	if (iter + 1) % config.gradient_accumulation_steps == 0:
	scaler.unscale_(optimizer)
	torch.nn.utils.clip_grad_norm_(model.parameters(), config.grad_clip)
	scaler.step(optimizer)
	scaler.update()
	optimizer.zero_grad(set_to_none=True)
	else:
	logits, loss = model(x, y)
	loss = loss / config.gradient_accumulation_steps
	loss.backward()

	if (iter + 1) % config.gradient_accumulation_steps == 0:
	torch.nn.utils.clip_grad_norm_(model.parameters(), config.grad_clip)
	optimizer.step()
	optimizer.zero_grad(set_to_none=True)

	# Calculate metrics
	iter_time = time.time() - iter_start
	tokens_per_sec = config.batch_size * config.block_size / iter_time

	# Evaluation and logging
	if iter % config.eval_interval == 0:
	val_loss = evaluate_loss(model, train_loader, config)
	logger.log_step(iter, loss.item(), val_loss, lr, tokens_per_sec)

	if val_loss < best_val_loss:
	best_val_loss = val_loss
	no_improvement_count = 0
	torch.save({
	'model_state_dict': model.state_dict(),
	'optimizer_state_dict': optimizer.state_dict(),
	'val_loss': val_loss,
	'iter': iter,
	'config': model_config
	}, 'best_model.pt')
	logger.log_message(f"New best model saved with validation loss: {val_loss:.6f}")
	else:
	no_improvement_count += 1

	if val_loss < 0.099999:
	logger.log_message(f"Target loss achieved at iteration {iter}")
	logger.log_message(f"Final validation loss: {val_loss:.6f}")
	break

	if no_improvement_count >= 5:
	for param_group in optimizer.param_groups:
	param_group['lr'] *= 0.5
	no_improvement_count = 0
	logger.log_message("Reducing learning rate due to no improvement")

	logger.finish()
	return model

	def generate_text(model, prompt, max_length=100, temperature=0.7):
	model.eval()
	device = model.device
	enc = tiktoken.get_encoding('gpt2')
	input_ids = torch.tensor(enc.encode(prompt)).unsqueeze(0).to(device)

	with torch.no_grad():
	output_sequence = []
	for _ in range(max_length):
	outputs = model(input_ids)
	logits = outputs[0] if isinstance(outputs, tuple) else outputs
	next_token_logits = logits[:, -1, :]
	# Apply temperature
	next_token_logits = next_token_logits / temperature
	probs = F.softmax(next_token_logits, dim=-1)
	next_token = torch.multinomial(probs, num_samples=1)
	output_sequence.append(next_token.item())
	input_ids = torch.cat([input_ids, next_token], dim=1)

	return enc.decode(output_sequence)

	if __name__ == "__main__":
	# Train the model
	model = train_model()

	# Create and launch Gradio interface
	def predict(prompt, length, temp=0.7):
	return generate_text(model, prompt, length, temp)

	iface = gr.Interface(
	fn=predict,
	inputs=[
	gr.Textbox(lines=2, label="Enter your prompt"),
	gr.Slider(minimum=10, maximum=200, value=50, label="Max Length"),
	gr.Slider(minimum=0.1, maximum=2.0, value=0.7, label="Temperature", step=0.1)
	],
	outputs=gr.Textbox(lines=5, label="Generated Text"),
	title="Custom Transformer Text Generator",
	description="Enter a prompt and adjust parameters to generate text"
	)
	iface.launch(share=True)