BAAI
/

举的例子挺有意思的🙂

#1
by svjack - opened

运行例子举的不错,但高质量数据集的建设,几乎必然是需要商业拉动的,期待能够开源一些任务特化的(甚至是有特定准确率的)中文高质量数据集。

Beijing Academy of Artificial Intelligence org

谢谢关注和建议。
这个分类器是用来过滤得到CCI3.0-HQ数据集的。
运行例子是数据集的一条样本,可以查看 https://huggingface.co/datasets/BAAI/CCI3-HQ?row=0。

目前智源还按行业开源了高质量数据集 https://huggingface.co/datasets/BAAI/IndustryCorpus2。
后面我们也会关注更细化或者特化的任务数据。

ldwang changed discussion status to closed

Sign up or log in to comment