Mistral gyda ychwanegiad Tocynnydd Cymreig

Mae model Mistral yn cynnwys 32,000 tocynn yn ei eirfa.

Wrth amgodio brawddeg yn y gymraeg, mae'r tocynnau ar wasgar i'w gymharu hefo'r Saesneg:

Tocynnydd Mistral 32k

This is a tokenizer test
['▁This', '▁is', '▁a', '▁token', 'izer', '▁test']

Roedd y gath yn eistedd ar y llawr
['▁Ro', 'ed', 'd', '▁y', '▁g', 'ath', '▁y', 'n', '▁e', 'isted', 'd', '▁ar', '▁y', '▁ll', 'aw', 'r']

Tocynnydd Cymreig 16k

Wrth greu tocynnydd o'r newydd wedi ei hyfforddi ar ddata Cymreig, cawn gynrychiolaeth llawer tynach yn y Gymraeg. Mae'r Saesneg wedi gwaethygu, fodd bynnag.

This is a tokenizer test
['▁This', '▁is', '▁a', '▁to', 'ke', 'n', 'ize', 'r', '▁', 'test']

Roedd y gath yn eistedd ar y llawr
['▁Roedd', '▁y', '▁gath', '▁yn', '▁eistedd', '▁ar', '▁y', '▁llawr']

Tocynnydd Gyfunol

Wrth gyfuno tocynnydd Mistral gyda ein tocynnydd newydd Cymraeg, cawn un sydd yn medru mynegi tocynnau yn y ddwy iaith yn effeithiol:

This is a tokenizer test
['▁This', '▁is', '▁a', '▁token', 'izer', '▁test']

Roedd y gath yn eistedd ar y llawr
['▁Roedd', '▁y', '▁gath', '▁yn', '▁', 'eis', 't', 'edd', '▁ar', '▁y', '▁llawr']

Mae set o docynnau yn cael eu rhannu rhwng y ddwy iaith, sydd yn rhoi cyfanswm o 44,955 tocyn yn y fersiwn yma.

Mae'r model Mistral wedi ei ehangu ar ei gyfer - ond dylir gofio fod angen hyfforddi'r model gryn dipyn er mwyn gysylltu ystyr y tocynnau newydd hefo'r rhai sydd yn y model yn barod.

Downloads last month
17
Safetensors
Model size
7.35B params
Tensor type
FP16
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.