slices: - sources: - model: TheHierophant/Underground-Cognitive-V0.3-test layer_range: [0, 8] parameters: attention: - filter: q_proj value: 1.15 - filter: k_proj value: 1.1 - filter: v_proj value: 1.2 - filter: down_proj value: 1.1 significance: 0.85 # Añadir relevancia para reforzar cálculos precisos en las primeras capas weight: 0.3 # Peso para garantizar que las capas iniciales manejen la información con precisión rope_scaling: type: "linear" value: 0.7 # Ajuste para mejorar la capacidad posicional - sources: - model: TheHierophant/Underground-Cognitive-V0.3-test layer_range: [8, 16] parameters: attention: - filter: q_proj value: 1.25 - filter: k_proj value: 1.15 - filter: v_proj value: 1.3 - filter: down_proj value: 1.2 weight: 0.35 significance: 0.9 # Aumentar el enfoque en la lógica matemática básica para diferenciar iteración y recursión rope_scaling: type: "linear" value: 0.85 # Factor dinámico para asegurar flexibilidad y ajuste automático en cálculos - sources: - model: TheHierophant/Underground-Cognitive-V0.3-test layer_range: [16, 32] parameters: attention: - filter: o_proj value: 1.5 - filter: q_proj value: 1.4 - filter: v_proj value: 1.35 - filter: down_proj value: 1.3 weight: 0.4 # Más peso a capas medias para reforzar razonamiento intermedio significance: 0.85 # Focalización para la transferencia de atención a capas superiores - sources: - model: TheHierophant/Underground-Cognitive-V0.3-test layer_range: [32, 48] parameters: attention: - filter: o_proj value: 2.0 - filter: q_proj value: 1.8 - filter: v_proj value: 1.7 - filter: down_proj value: 1.65 weight: 0.5 # Incremento de peso para fortalecer las capas profundas y el análisis complejo significance: 0.95 # Enfoque en mejorar la lógica no lineal y reforzar la atención en problemas complejos base_model_config: attention_bias: false attention_dropout: 0.05 # Añadir dropout para prevenir sobreajuste en cálculos repetitivos hidden_act: "silu" # Mantener la función silu para una activación suave y continua hidden_size: 4096 initializer_range: 0.02 intermediate_size: 14336 max_position_embeddings: 4096 num_attention_heads: 32 num_hidden_layers: 48 num_key_value_heads: 8 pretraining_tp: 1 rms_norm_eps: 1e-05 rope_scaling: type: "linear" # Ajuste basado en el tipo linear para optimizar la capacidad adaptativa value: 1.1 # Factor ajustado para mantener un escalamiento eficiente rope_theta: 12000.0 # Ajustado para mejorar la capacidad posicional en tareas matemáticas tie_word_embeddings: false vocab_size: 32000 use_cache: true # Habilitar cache para mejorar eficiencia durante la inferencia dtype: bfloat16 merge_method: passthrough