With the development of large-scale language model technology, fine-tuning pre-trained large-scale language models has become a mainstream paradigm to solve downstream tasks of natural language processing. However, training a language model in the legal field requires a large number of legal documents so that the language model can learn legal terminology and the particularity of the format of legal documents. The typical NLP method usually needs to rely on a large number of manually annotation data sets for training. However, in the application of the legal field, it is actually difficult to obtain a large number of manually annotation data sets, which restricted the typical method applied to the task of drafting legal documents. The experimental results of this paper show that not only can a large number of unlabeled legal documents that do not require Chinese word segmentation, but more importantly, it can fine-tune a large pre-trained language model on the local computer to achieve the generating legal document drafts task, and at the same time achieve the protection of information privacy and to improve information security issues.
Com o desenvolvimento da tecnologia de modelos de linguagem em grande escala, o ajuste fino de modelos de linguagem pré-treinados em grande escala tornou-se um paradigma mainstream para resolver tarefas de processamento de linguagem natural a jusante. No entanto, treinar um modelo de linguagem na área jurídica requer um grande número de documentos legais para que o modelo de linguagem possa aprender a terminologia jurídica e a particularidade do formato dos documentos legais. O método NLP típico geralmente precisa depender de um grande número de conjuntos de dados anotados manualmente para treinamento. No entanto, na aplicação da área jurídica, é realmente difícil obter um grande número de conjuntos de dados anotados manualmente, o que restringiu o método típico aplicado à tarefa de redação de documentos legais. Os resultados experimentais deste artigo mostram que não apenas um grande número de documentos legais não rotulados que não requerem segmentação de palavras em chinês podem ser usados, mas, mais importante, é possível ajustar um grande modelo de linguagem pré-treinado no computador local para alcançar a tarefa de geração de rascunhos de documentos legais e, ao mesmo tempo, alcançar a proteção da privacidade das informações e melhorar as questões de segurança da informação.
""") with gr.Column(scale=1, min_width=600): with gr.Tab("Assistente Legal de Escrita"): result = gr.components.Textbox(lines=7, label="Assistente de Escrita", show_label=True, placeholder=prompts[0]) prompt = gr.components.Textbox(lines=2, label="Prompt", placeholder=examples[0], visible=False) gr.Examples(examples, label='Exemplos', inputs=[prompt]) prompt.change(generate, inputs=[prompt], outputs=[result]) btn = gr.Button("Próxima frase") btn.click(generate, inputs=[result], outputs=[result]) with gr.Tab("Geração Aleatória"): result2 = gr.components.Textbox(lines=7, label="Geração Aleatória", show_label=True, value = examples[0][0]) gr.Examples(examples, label='Exemplos', inputs=[result2]) rnd_btn = gr.Button("Rascunho Aleatório") rnd_btn.click(rnd_generate, inputs=[result2], outputs=[result2]) if __name__ == "__main__": demo.launch()