--- title: Nlp Project emoji: πŸ¦€ colorFrom: pink colorTo: purple sdk: streamlit sdk_version: 1.21.0 app_file: app.py pinned: false --- ## ΠŸΡ€ΠΎΠ΅ΠΊΡ‚ Π² области ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ СстСствСнного языка ЦСлью ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° являСтся созданиС ΠΌΡƒΠ»ΡŒΡ‚ΠΈΡΡ‚Ρ€Π°Π½ΠΈΡ‡Π½ΠΎΠ³ΠΎ прилоТСния Π½Π° ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ΅ HuggingFace/Streamlit, Π΄Π΅ΠΌΠΎΠ½ΡΡ‚Ρ€ΠΈΡ€ΡƒΡŽΡ‰Π΅Π³ΠΎ возмоТности ΠΈ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΎΠ½Π°Π» ряда Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ машинного обучСния ΠΈ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹Ρ… сСтСй Π² области ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ СстСствСнного языка. Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠΌ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° являСтся ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅, состоящСС ΠΈΠ· ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΡ… ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ΠΎΠ²: 1. ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ ΠΊΠΎΡ€ΠΎΡ‚ΠΊΠΈΡ… Ρ€Π΅Ρ†Π΅Π½Π·ΠΈΠΉ Π½Π° Ρ„ΠΈΠ»ΡŒΠΌΡ‹ Π½Π° английском языкС Π½Π° Π±Π°Π·Π΅ Ρ‚Ρ€Ρ‘Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ: классичСская логистичСская рСгрСссия; обучСнная ΡΠ΅Ρ‚ΡŒ LSTM; модСль BERT с Π΄ΠΎΠΎΠ±ΡƒΡ‡Π΅Π½Π½Ρ‹ΠΌΠΈ послСдними слоями трансформСров ΠΈ Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Π½Ρ‹ΠΌ Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹ΠΌ полносвязным слоСм. 2. Π‘ΡƒΠΌΠΌΠ°Ρ€ΠΈΠ·Π°Ρ‚ΠΎΡ€ тСкстов Π½Π° английском языкС Π½Π° Π±Π°Π·Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ BERT. 3. БСрия ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ GPT с настраиваСмыми ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ, Π΄ΠΎΠΎΠ±ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… Π½Π° тСкстах Π₯ΠΎΡ€Ρ…Π΅ Луиса БорхСса; А.Π‘. ΠŸΡƒΡˆΠΊΠΈΠ½Π°; Oxxxymiron. ΠŸΡ€ΠΎΠ΅ΠΊΡ‚ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ участниками Π³Ρ€ΡƒΠΏΠΏΡ‹ DS20 Π² составС: Артёма Π”ΠΎΠΉΠ½ΠΈΠΊΠΎΠ²Π°, БСргСя ΠšΠ°Ρ€ΠΏΠ΅Π½ΠΊΠΎ, АлСксандра ΠšΡƒΡ€Ρ‡Π°Ρ‚ΠΊΠΈΠ½Π°, Руслана Π‘ΡƒΠ»Ρ‚Π°Π½ΠΎΠ²Π°, ЕвгСния Π©ΡƒΡ€ΠΊΠΈΠ½Π°. ## Natural Language Processing Project The goal of the project is to create a multi-page application on HuggingFace / Streamlit in order to demonstrate some of the capabilities and functionality of a number of machine learning and neural networks technologies in the field of natural language processing. The tangible result of the project is an application consisting of the following components: 1. A classifier of short reviews of films in English based on three models: a classical logistic regression; a trained LSTM network; a BERT model with retrained last layers of transformers and an added linear fully-connected layer. 2. Summarizer of texts in English based on the BERT model. 3. A series of GPT models with customizable generation parameters, retrained on the texts of Jorge Luis Borges; Alexander Pushkin; Oxxxymiron. The project has been carried out by members of the DS20 group: Artyom Doinikov, Sergey Karpenko, Alexander Kurchatkin, Ruslan Sultanov, Evgeniy Shchurkin.