merge
This is a merge of pre-trained language models created using mergekit.
Merge Details
Merge Method
This model was merged using the passthrough merge method.
Models Merged
The following models were included in the merge:
Configuration
The following YAML configuration was used to produce this model:
slices:
- sources:
- model: TheHierophant/Underground-Cognitive-V0.3-test
layer_range: [0, 8]
parameters:
attention:
- filter: q_proj
value: 1.15
- filter: k_proj
value: 1.1
- filter: v_proj
value: 1.2
- filter: down_proj
value: 1.1
significance: 0.85 # A帽adir relevancia para reforzar c谩lculos precisos en las primeras capas
weight: 0.3 # Peso para garantizar que las capas iniciales manejen la informaci贸n con precisi贸n
rope_scaling:
type: "linear"
value: 0.7 # Ajuste para mejorar la capacidad posicional
- sources:
- model: TheHierophant/Underground-Cognitive-V0.3-test
layer_range: [8, 16]
parameters:
attention:
- filter: q_proj
value: 1.25
- filter: k_proj
value: 1.15
- filter: v_proj
value: 1.3
- filter: down_proj
value: 1.2
weight: 0.35
significance: 0.9 # Aumentar el enfoque en la l贸gica matem谩tica b谩sica para diferenciar iteraci贸n y recursi贸n
rope_scaling:
type: "linear"
value: 0.85 # Factor din谩mico para asegurar flexibilidad y ajuste autom谩tico en c谩lculos
- sources:
- model: TheHierophant/Underground-Cognitive-V0.3-test
layer_range: [16, 32]
parameters:
attention:
- filter: o_proj
value: 1.5
- filter: q_proj
value: 1.4
- filter: v_proj
value: 1.35
- filter: down_proj
value: 1.3
weight: 0.4 # M谩s peso a capas medias para reforzar razonamiento intermedio
significance: 0.85 # Focalizaci贸n para la transferencia de atenci贸n a capas superiores
- sources:
- model: TheHierophant/Underground-Cognitive-V0.3-test
layer_range: [32, 48]
parameters:
attention:
- filter: o_proj
value: 2.0
- filter: q_proj
value: 1.8
- filter: v_proj
value: 1.7
- filter: down_proj
value: 1.65
weight: 0.5 # Incremento de peso para fortalecer las capas profundas y el an谩lisis complejo
significance: 0.95 # Enfoque en mejorar la l贸gica no lineal y reforzar la atenci贸n en problemas complejos
base_model_config:
attention_bias: false
attention_dropout: 0.05 # A帽adir dropout para prevenir sobreajuste en c谩lculos repetitivos
hidden_act: "silu" # Mantener la funci贸n silu para una activaci贸n suave y continua
hidden_size: 4096
initializer_range: 0.02
intermediate_size: 14336
max_position_embeddings: 4096
num_attention_heads: 32
num_hidden_layers: 48
num_key_value_heads: 8
pretraining_tp: 1
rms_norm_eps: 1e-05
rope_scaling:
type: "linear" # Ajuste basado en el tipo linear para optimizar la capacidad adaptativa
value: 1.1 # Factor ajustado para mantener un escalamiento eficiente
rope_theta: 12000.0 # Ajustado para mejorar la capacidad posicional en tareas matem谩ticas
tie_word_embeddings: false
vocab_size: 32000
use_cache: true # Habilitar cache para mejorar eficiencia durante la inferencia
dtype: bfloat16
merge_method: passthrough
- Downloads last month
- 13
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.
Model tree for TheHierophant/Underground-Mind-10.7B-V1.0
Base model
ClaudioItaly/Underground