File size: 2,879 Bytes
df18132
 
 
 
 
 
 
 
 
 
 
 
8dbf1f3
460cf27
 
 
 
 
8059bf4
 
 
460cf27
8059bf4
 
 
 
460cf27
 
8059bf4
 
 
 
 
460cf27
8dbf1f3
460cf27
 
 
 
 
8059bf4
 
 
460cf27
8059bf4
 
 
 
460cf27
 
8059bf4
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
---
title: Nlp Project
emoji: 🦀
colorFrom: pink
colorTo: purple
sdk: streamlit
sdk_version: 1.21.0
app_file: app.py
pinned: false
---


## Проект в области обработки естественного языка

Целью проекта является создание мультистраничного приложения на платформе HuggingFace/Streamlit, демонстрирующего возможности и функционал ряда технологий машинного обучения и нейронных сетей в области обработки естественного языка.

Результатом проекта является приложение, состоящее из следующих компонентов:
	1. Классификатор коротких рецензий на фильмы на английском языке на базе трёх моделей: 
		классическая логистическая регрессия;
		обученная сеть LSTM;
		модель BERT с дообученными последними слоями трансформеров и добавленным линейным полносвязным слоем. 
	2. Суммаризатор текстов на английском языке на базе модели BERT.
	3. Серия моделей GPT с настраиваемыми параметрами генерации, дообученных на текстах
		Хорхе Луиса Борхеса;
		А.С. Пушкина;
		Oxxxymiron.

Проект выполнен участниками группы DS20 в составе:
	Артёма Дойникова,
	Сергея Карпенко,
	Александра Курчаткина,
	Руслана Султанова,
	Евгения Щуркина.

## Natural Language Processing Project

The goal of the project is to create a multi-page application on HuggingFace / Streamlit in order to demonstrate some of the capabilities and functionality of a number of machine learning and neural networks technologies in the field of natural language processing.

The tangible result of the project is an application consisting of the following components:
	1. A classifier of short reviews of films in English based on three models:
		a classical logistic regression;
		a trained LSTM network;
		a BERT model with retrained last layers of transformers and an added linear fully-connected layer.
	2. Summarizer of texts in English based on the BERT model.
	3. A series of GPT models with customizable generation parameters, retrained on the texts of
		Jorge Luis Borges;
		Alexander Pushkin;
		Oxxxymiron.

The project has been carried out by members of the DS20 group:
	Artyom Doinikov,
	Sergey Karpenko,
	Alexander Kurchatkin,
	Ruslan Sultanov,
	Evgeniy Shchurkin.