vocab/glm_chinese/README.md · yhavinga/dutch-tokenizer-arena at 8e0e4e9cd4c111464aab5cf3df2adcfdf028aab5

来源：

HF

tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-10b", trust_remote_code=True)

tokenizer_config.json

    "AutoTokenizer": [
      "tokenization_glm.GLMChineseTokenizer",
      null
      ]

其中 GLMChineseTokenizer

https://huggingface.co/THUDM/glm-10b-chinese/blob/main/tokenization_glm.py

来自