{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import emoji\n", "import numpy as np\n", "import pandas as pd\n", "from sklearn.preprocessing import LabelEncoder\n", "from transformers import AutoTokenizer" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "# train_df=pd.read_csv('/DATA/sin-kaf/offenseval-tr-training-v1.tsv',sep='\\t')\n", "# test_df=pd.read_csv('/DATA/sin-kaf/offenseval-tr-testset-v1.tsv',sep='\\t')\n", "# augmented_df=pd.read_csv('augmented_data_offensive.csv')\n", "# selin_df=pd.read_csv('/DATA/sin-kaf/selin_data.csv')" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "outliers_df=pd.read_csv('/DATA/sin-kaf/cluster_outliers.csv')\n", "outliers_df=outliers_df.drop(['Unnamed: 0'], axis=1)\n", "outliers_df['subtask_a'] = outliers_df['subtas_a']\n", "outliers_df=outliers_df.drop(['subtas_a'], axis=1)\n" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "train_df=outliers_df" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "# augmented_df=augmented_df.drop(['Unnamed: 0'], axis=1)\n", "# augmented_df = augmented_df.dropna()\n", "# train_df=pd.concat([train_df,augmented_df], axis=0)\n", "# train_df=pd.concat([train_df,test_df], axis=0)\n", "# train_df=train_df.drop(['id'], axis=1)\n", "data=train_df['tweet'].tolist()\n", "for i in range(len(data)):\n", " data[i] = data[i].replace('@USER','')\n", " data[i] = data[i].replace('#','')\n", " data[i] = data[i].replace('$','')\n", " data[i] = emoji.demojize(data[i])\n", " \n", "train_df['tweet'] = data\n", "lab = LabelEncoder()\n", "train_df['subtask_a'] = lab.fit_transform(train_df['subtask_a'])\n", "df = train_df[train_df.subtask_a != 2]" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
tweetsubtask_a
0en güzel uyuyan insan ödülü jeon jungkook'a g...0
1Mekanı cennet olsun, saygılar sayın avukatımı...0
2Kızlar aranızda kas yığını beylere düşenler ol...0
3Biraz ders çalışayım. Tembellik ve uyku düşman...0
4Trezeguet yerine El Sharawy daha iyi olmaz mı0
.........
41177Hil**adamlar kesinlikle kelimeleri anlamıyorla...1
41178Böyle piçlerin çok erken ölmemelerini ve çok f...1
41179Turgay denilen bu holigonda bir sorun yok, gur...1
41180Umarım ülkenin düşük zekadan kurtulması ilgile...1
41181CHP sandıkları bırakmaz, üzerine oturur, bir c...1
\n", "

41182 rows × 2 columns

\n", "
" ], "text/plain": [ " tweet subtask_a\n", "0 en güzel uyuyan insan ödülü jeon jungkook'a g... 0\n", "1 Mekanı cennet olsun, saygılar sayın avukatımı... 0\n", "2 Kızlar aranızda kas yığını beylere düşenler ol... 0\n", "3 Biraz ders çalışayım. Tembellik ve uyku düşman... 0\n", "4 Trezeguet yerine El Sharawy daha iyi olmaz mı 0\n", "... ... ...\n", "41177 Hil**adamlar kesinlikle kelimeleri anlamıyorla... 1\n", "41178 Böyle piçlerin çok erken ölmemelerini ve çok f... 1\n", "41179 Turgay denilen bu holigonda bir sorun yok, gur... 1\n", "41180 Umarım ülkenin düşük zekadan kurtulması ilgile... 1\n", "41181 CHP sandıkları bırakmaz, üzerine oturur, bir c... 1\n", "\n", "[41182 rows x 2 columns]" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "train_df" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [], "source": [ "# train_df=pd.concat([train_df,selin_df], axis=0)" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
tweetsubtask_a
0en güzel uyuyan insan ödülü jeon jungkook'a g...0
1Mekanı cennet olsun, saygılar sayın avukatımı...0
2Kızlar aranızda kas yığını beylere düşenler ol...0
3Biraz ders çalışayım. Tembellik ve uyku düşman...0
4Trezeguet yerine El Sharawy daha iyi olmaz mı0
.........
41177Hil**adamlar kesinlikle kelimeleri anlamıyorla...1
41178Böyle piçlerin çok erken ölmemelerini ve çok f...1
41179Turgay denilen bu holigonda bir sorun yok, gur...1
41180Umarım ülkenin düşük zekadan kurtulması ilgile...1
41181CHP sandıkları bırakmaz, üzerine oturur, bir c...1
\n", "

41182 rows × 2 columns

\n", "
" ], "text/plain": [ " tweet subtask_a\n", "0 en güzel uyuyan insan ödülü jeon jungkook'a g... 0\n", "1 Mekanı cennet olsun, saygılar sayın avukatımı... 0\n", "2 Kızlar aranızda kas yığını beylere düşenler ol... 0\n", "3 Biraz ders çalışayım. Tembellik ve uyku düşman... 0\n", "4 Trezeguet yerine El Sharawy daha iyi olmaz mı 0\n", "... ... ...\n", "41177 Hil**adamlar kesinlikle kelimeleri anlamıyorla... 1\n", "41178 Böyle piçlerin çok erken ölmemelerini ve çok f... 1\n", "41179 Turgay denilen bu holigonda bir sorun yok, gur... 1\n", "41180 Umarım ülkenin düşük zekadan kurtulması ilgile... 1\n", "41181 CHP sandıkları bırakmaz, üzerine oturur, bir c... 1\n", "\n", "[41182 rows x 2 columns]" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "train_df" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [], "source": [ "train_df = df.sample(frac = 0.7, random_state = 200)\n", "df_2 = df.drop(train_df.index)\n", "test_df = df_2.sample(frac = 0.15, random_state = 200)\n", "val_df = df_2.drop(test_df.index)" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [], "source": [ "text_train = train_df.tweet.values\n", "label_train = train_df.subtask_a.values" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [], "source": [ "text_test = test_df.tweet.values\n", "label_test = test_df.subtask_a.values" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [], "source": [ "text_val = val_df.tweet.values\n", "label_val = val_df.subtask_a.values" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [], "source": [ "from datasets.dataset_dict import DatasetDict\n", "from datasets import Dataset\n", "dataset={'train':Dataset.from_dict({'label':label_train,'text':text_train}),\n", " 'val':Dataset.from_dict({'label':label_val,'text':text_val}),\n", " 'test':Dataset.from_dict({'label':label_test,'text':text_test})\n", " }\n", "dataset = DatasetDict(dataset)" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [], "source": [ "# tokenizer = AutoTokenizer.from_pretrained(\"dbmdz/bert-base-turkish-128k-uncased\")\n", "# tokenizer = AutoTokenizer.from_pretrained(\"dbmdz/distilbert-base-turkish-cased\")\n", "tokenizer = AutoTokenizer.from_pretrained(\"Overfit-GM/distilbert-base-turkish-cased-offensive\")\n", "# tokenizer = AutoTokenizer.from_pretrained(\"Overfit-GM/distilbert-base-turkish-cased-offensive\",max_length=208,padding=\"max_length\",truncation=True,return_tensors=\"pt\",add_special_tokens=True,)\n", "# tokenizer = AutoTokenizer.from_pretrained(\"stage_f/pretrain_mlm_distilbert-base-turkish-cased\")\n", "def tokenize_function(examples):\n", " return tokenizer(examples[\"text\"], padding=\"max_length\", truncation=True)" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "5fba4c9671724e9a93d6ad14a1427345", "version_major": 2, "version_minor": 0 }, "text/plain": [ "Map: 0%| | 0/28827 [00:00), hidden_states=None, attentions=None)" ] }, "execution_count": 32, "metadata": {}, "output_type": "execute_result" } ], "source": [ "outputs" ] }, { "cell_type": "code", "execution_count": 33, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "tensor(0)" ] }, "execution_count": 33, "metadata": {}, "output_type": "execute_result" } ], "source": [ "torch.argmax(outputs['logits'])" ] } ], "metadata": { "kernelspec": { "display_name": "dlenv", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.9.17" } }, "nbformat": 4, "nbformat_minor": 2 }