TheHierophant
/

Underground-Mind-10.7B-V1.0

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Underground-Mind-10.7B-V1.0 / mergekit_config.yml

TheHierophant's picture

Upload folder using huggingface_hub

2597c63 verified about 2 months ago

history blame contribute delete

3.42 kB

	slices:
	- sources:
	- model: TheHierophant/Underground-Cognitive-V0.3-test
	layer_range: [0, 8]
	parameters:
	attention:
	- filter: q_proj
	value: 1.15
	- filter: k_proj
	value: 1.1
	- filter: v_proj
	value: 1.2
	- filter: down_proj
	value: 1.1
	significance: 0.85 # Añadir relevancia para reforzar cálculos precisos en las primeras capas
	weight: 0.3 # Peso para garantizar que las capas iniciales manejen la información con precisión
	rope_scaling:
	type: "linear"
	value: 0.7 # Ajuste para mejorar la capacidad posicional
	- sources:
	- model: TheHierophant/Underground-Cognitive-V0.3-test
	layer_range: [8, 16]
	parameters:
	attention:
	- filter: q_proj
	value: 1.25
	- filter: k_proj
	value: 1.15
	- filter: v_proj
	value: 1.3
	- filter: down_proj
	value: 1.2
	weight: 0.35
	significance: 0.9 # Aumentar el enfoque en la lógica matemática básica para diferenciar iteración y recursión
	rope_scaling:
	type: "linear"
	value: 0.85 # Factor dinámico para asegurar flexibilidad y ajuste automático en cálculos
	- sources:
	- model: TheHierophant/Underground-Cognitive-V0.3-test
	layer_range: [16, 32]
	parameters:
	attention:
	- filter: o_proj
	value: 1.5
	- filter: q_proj
	value: 1.4
	- filter: v_proj
	value: 1.35
	- filter: down_proj
	value: 1.3
	weight: 0.4 # Más peso a capas medias para reforzar razonamiento intermedio
	significance: 0.85 # Focalización para la transferencia de atención a capas superiores
	- sources:
	- model: TheHierophant/Underground-Cognitive-V0.3-test
	layer_range: [32, 48]
	parameters:
	attention:
	- filter: o_proj
	value: 2.0
	- filter: q_proj
	value: 1.8
	- filter: v_proj
	value: 1.7
	- filter: down_proj
	value: 1.65
	weight: 0.5 # Incremento de peso para fortalecer las capas profundas y el análisis complejo
	significance: 0.95 # Enfoque en mejorar la lógica no lineal y reforzar la atención en problemas complejos
	base_model_config:
	attention_bias: false
	attention_dropout: 0.05 # Añadir dropout para prevenir sobreajuste en cálculos repetitivos
	hidden_act: "silu" # Mantener la función silu para una activación suave y continua
	hidden_size: 4096
	initializer_range: 0.02
	intermediate_size: 14336
	max_position_embeddings: 4096
	num_attention_heads: 32
	num_hidden_layers: 48
	num_key_value_heads: 8
	pretraining_tp: 1
	rms_norm_eps: 1e-05
	rope_scaling:
	type: "linear" # Ajuste basado en el tipo linear para optimizar la capacidad adaptativa
	value: 1.1 # Factor ajustado para mantener un escalamiento eficiente
	rope_theta: 12000.0 # Ajustado para mejorar la capacidad posicional en tareas matemáticas
	tie_word_embeddings: false
	vocab_size: 32000
	use_cache: true # Habilitar cache para mejorar eficiencia durante la inferencia
	dtype: bfloat16
	merge_method: passthrough