{ "cells": [ { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "\n", "\n", "def load_stopwords(file_path):\n", " with open(file_path, 'r', encoding='utf-8') as f:\n", " stopwords = f.read().splitlines() # Her satır bir stopword olacak şekilde yükle\n", " return set(stopwords)\n", "\n", "\n", "stop_words = load_stopwords('stopwords.txt')\n", "\n", "\n", "def remove_stopwords_without_nltk(text):\n", " if isinstance(text, str): \n", " words = text.split() \n", " filtered_words = [word for word in words if word.lower() not in stop_words] \n", " return ' '.join(filtered_words) \n", " else:\n", " return \"\" \n", "\n", "\n", "# Dosyayı parçalar halinde işlemek için chunksize belirliyoruz\n", "chunksize = 10000 # Her seferde 10.000 satır yükle\n", "output_file = 'temizlenmis_veri.csv'\n", "first_chunk = True # İlk chunk'ta başlık eklemek için kontrol değişkeni\n", "\n", "for chunk in pd.read_csv('veriler_cleaned.csv', chunksize=chunksize):\n", " # Stopwords çıkarma işlemini her parça için uygula\n", " chunk['stopwords_text'] = chunk['cleaned_text'].apply(remove_stopwords_without_nltk)\n", "\n", " # Sonuçları dosyaya ekle\n", " chunk.to_csv(output_file, mode='a', index=False, header=first_chunk, encoding='utf-8')\n", " first_chunk = False # Sonraki chunk'larda başlık eklememek için false yap\n" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "1: Dış Bağlantılar\n", "2: eş anlamlıdır\n", "3: d\n", "4: nasıl\n", "5: n\n", "6: ne\n", "7: kullanıldı\n", "8: kullandı\n", "9: çıktı\n", "10: bulundu\n", "11: başlayan\n", "12: yılında\n", "13: yıllarında\n", "14: yılları\n", "15: boyunca\n", "16: süersince\n", "17: bağlı\n", "18: sonucu\n", "19: bitişi\n", "20: bitmiştir\n", "21: bittabi\n", "22: bitti\n", "23: yıl\n", "24: resmi\n", "25: asılarak\n", "26: bulundu\n", "27: olmuştur\n", "28: oldu\n", "29: süregelen\n", "30: süresince\n", "31: sürer\n", "32: nedeniyle\n", "33: nedeni\n", "34: neden\n", "35: nedeni\n", "36: açıklar\n", "37: bulunan\n", "38: önemli\n", "39: dayanmaktadır\n", "40: söylenmiştir\n", "41: söylenmektedir\n", "42: olması\n", "43: olmaması\n", "44: öne çıkar\n", "45: dikkat çeker\n", "46: dikkat çeken\n", "47: insanlar\n", "48: başladı\n", "49: başlayan\n", "50: yaşayanlar\n", "51: yaşayan\n", "52: varlığını sürdüren\n", "53: tamamlayıp\n", "54: eş anlamlı\n", "55: soy ismidir\n", "56: büyütüldü\n", "57: kullanıldı\n", "58: yapıldı\n", "59: lakapları\n", "60: lakaplıdır\n", "61: ismidir\n", "62: biten\n", "63: doğdu\n", "64: yaşadı\n", "65: içinde\n", "66: anlayışı\n", "67: aranan\n", "68: doğumlular\n", "69: doğumlu\n", "70: eski\n", "71: diyorlardı\n", "72: yer alan\n", "73: uygun\n", "74: yerlerde\n", "75: yerler\n", "76: yerleri\n", "77: yerlerin\n", "78: ilgili\n", "79: ili\n", "80: sanılmaktadır\n", "81: \n", "82: başlayan\n", "83: duyulan\n", "84: Bağlantılar\n", "85: bağlı\n", "86: Dış\n", "87: Dış Bağlantılar\n", "88: gidildi\n", "89: işgal edildi\n", "90: ünlüydü\n", "91: olduğunu\n", "92: olduğu\n", "93: olduğunuz\n", "94: olduğum\n", "95: onların\n", "96: onlar\n", "97: onlardan\n", "98: onlara\n", "99: doğumlular\n", "100: yaşayanlar\n", "101: ölenler\n", "102: türüdür\n", "103: varsaymak\n", "104: varsayılır\n", "105: adlandırılmaktadır\n", "106: kaynakça\n", "107: Kaynakça\n", "108: Biyografi\n", "109: katılmıştır\n", "110: getirmiştir\n", "111: girmiştir\n", "112: gitmişti\n", "113: gidilen\n", "114: gelen\n", "115: gelinen\n", "116: getirdim\n", "117: getirip\n", "118: getirdim\n", "119: geldi\n", "120: geldik\n", "121: geldikleri\n", "122: geldiklerinde\n", "123: geldiklerini\n", "124: geldikten\n", "125: geldiler\n", "126: geldim\n", "127: geldin\n", "128: geldiniz\n", "129: geldiği\n", "130: geldiğince\n", "131: geldiğini\n", "132: geldiğince\n", "133: geldiğinde\n", "134: geldiğini\n", "135: gelirdi\n", "136: geliri\n", "137: geldiniz\n", "138: gelmeden\n", "139: genelde\n", "140: gelince\n", "141: geleceğin\n", "142: biriydi\n", "143: biricik\n", "144: biridir\n", "145: birileri\n", "146: birilerinin\n", "147: birlikleri\n", "148: biriyle\n", "149: birinin\n", "150: biri\n", "151: sizi\n", "152: bizi\n", "153: biyografi\n", "154: beni\n", "155: lakap\n", "156: lakabıdır\n", "157: ama\n", "158: ancak\n", "159: artık\n", "160: aslında\n", "161: ayrıca\n", "162: bazı\n", "163: bütün\n", "164: çünkü\n", "165: daha\n", "166: de\n", "167: da\n", "168: gibi\n", "169: hem\n", "170: her\n", "171: hiç\n", "172: ile\n", "173: ise\n", "174: kez\n", "175: ki\n", "176: muhtemelen\n", "177: nasıl\n", "178: ne\n", "179: neden\n", "180: o\n", "181: onu\n", "182: onun\n", "183: onlar\n", "184: oysa\n", "185: pek\n", "186: peki\n", "187: siz\n", "188: u\n", "189: şunu\n", "190: sizin\n", "191: tam\n", "192: tüm\n", "193: veya\n", "194: ya\n", "195: yani\n", "196: yine\n", "197: yoksa\n", "198: çok\n", "199: az\n", "200: fazla\n", "201: başka\n", "202: belki\n", "203: kendi\n", "204: kendine\n", "205: kendini\n", "206: kendisi\n", "207: kadar\n", "208: önce\n", "209: sonra\n", "210: tekrar\n", "211: hep\n", "212: henüz\n", "213: hiç,\n", "214: hemen\n", "215: yalnızca\n", "216: zaten\n", "217: şimdi\n", "218: tabii\n", "219: tabi\n", "220: zaten\n", "221: üzere\n", "222: gitmişti\n", "223: gidiyor\n", "224: gitti\n", "225: gidip\n", "226: gidince\n", "227: gidemedim\n", "228: gelen\n", "229: gelmişti\n", "230: geliyor\n", "231: gelince\n", "232: geldim\n", "233: geldin\n", "234: geldiler\n", "235: geldikten\n", "236: geldiğini\n", "237: gelir\n", "238: getiriyor\n", "239: getirdim\n", "240: getirdik\n", "241: getirdiler\n", "242: getiremedik\n", "243: getirtip\n", "244: getirtti\n", "245: getiren\n", "246: getirilen\n", "247: getirebilirim\n", "248: getirip\n", "249: getirtilecek\n", "250: gidilecek\n", "251: gittikten\n", "252: getirdiğinde\n", "253: getirdiklerini\n", "254: ve\n", "255: ya\n", "256: veya\n", "257: ama,\n", "258: lakin\n", "259: oysa\n", "260: çünkü\n", "261: ne\n", "262: hatta\n", "263: hem\n", "264: yani\n", "265: ancak\n", "266: fakat\n", "267: hala\n", "268: bir\n", "269: birisi\n", "270: biri\n", "271: birinin\n", "272: birileri\n", "273: birilerinin\n", "274: birileridir\n", "275: biriydi\n", "276: biricik\n", "277: birinin\n", "278: birilerini\n", "279: birinin\n", "280: birinde\n", "281: biriyle\n", "282: biriniz\n", "283: ben\n", "284: sen\n", "285: o\n", "286: biz\n", "287: siz\n", "288: onlar\n", "289: benim\n", "290: senin\n", "291: onun\n", "292: bizim\n", "293: sizin\n", "294: onların\n", "295: bana\n", "296: sana\n", "297: ona\n", "298: bize\n", "299: size\n", "300: onlara\n", "301: benden\n", "302: senden\n", "303: ondan\n", "304: bizden\n", "305: sizden\n", "306: onlardan\n", "307: kendim\n", "308: kendin\n", "309: kendisi\n", "310: kendimiz\n", "311: kendiniz\n", "312: kendileri\n", "313: şimdi\n", "314: acaba\n", "315: hala\n", "316: henüz\n", "317: bazen\n", "318: her zaman\n", "319: bütün\n", "320: artık\n", "321: sadece\n", "322: hemen\n", "323: neredeyse\n", "324: yaklaşık\n", "325: tamamen\n", "326: hep\n", "327: tam\n", "328: çok\n", "329: az\n", "330: fazla\n", "331: daha\n", "332: yine\n", "333: o zaman\n", "334: nasıl\n", "335: neden\n", "336: niye\n", "337: nerede\n", "338: ne zaman\n", "339: nereye\n", "340: kim\n", "341: kimin\n", "342: nasıl\n", "343: niçin\n", "344: neden\n", "345: hala\n", "346: zaten\n", "347: acaba\n", "348: adeta\n", "349: altmış\n", "350: ancak\n", "351: aynı\n", "352: ayrı\n", "353: ayrıca\n", "354: bazı\n", "355: belki\n", "356: beri\n", "357: başka\n", "358: bazen\n", "359: bence\n", "360: belki\n", "361: bile\n", "362: birçok\n", "363: bir şey\n", "364: biraz\n", "365: birileri\n", "366: birisi\n", "367: biz\n", "368: bizim\n", "369: böyle\n", "370: bütün\n", "371: çok\n", "372: çünkü\n", "373: da\n", "374: daha\n", "375: de\n", "376: defa\n", "377: değil\n", "378: demek\n", "379: diye\n", "380: doksan\n", "381: eğer\n", "382: en\n", "383: en az\n", "384: fakat\n", "385: gene\n", "386: gibi\n", "387: hala\n", "388: hem\n", "389: hemen\n", "390: hep\n", "391: hatta\n", "392: herkes\n", "393: her şey\n", "394: hiç\n", "395: hiç kimse\n", "396: hiçbiri\n", "397: iken\n", "398: iki\n", "399: ile\n", "400: ise\n", "401: işte\n", "402: kaç\n", "403: kadar\n", "404: karşı\n", "405: kim\n", "406: kimi\n", "407: kırk\n", "408: kısacası\n", "409: nasıl\n", "410: neden\n", "411: neyse\n", "412: niçin\n", "413: nitekim\n", "414: oysa\n", "415: öyle\n", "416: önce\n", "417: örneğin\n", "418: peki\n", "419: zaten\n", "420: zira\n", "421: yoksa\n", "422: yüz\n", "423: yine\n", "424: şimdi\n", "425: şimdilik\n", "426: şunun\n", "427: şöyle\n", "428: üstelik\n", "429: Ayşe\n", "430: Fatma\n", "431: Emine\n", "432: Zeynep\n", "433: Elif\n", "434: Hasan\n", "435: Hülya\n", "436: Meryem\n", "437: Rabia\n", "438: Şeyma\n", "439: Hatice\n", "440: Fadime\n", "441: Esra\n", "442: Sümeyye\n", "443: Ceyda\n", "444: Büşra\n", "445: Berrin\n", "446: Sevgi\n", "447: Aysel\n", "448: Zeynep\n", "449: Neşe\n", "450: Ahmet\n", "451: Mehmet\n", "452: Ali\n", "453: Mustafa\n", "454: Hüseyin\n", "455: İbrahim\n", "456: Yusuf\n", "457: Murat\n", "458: Emre\n", "459: Orhan\n", "460: Can\n", "461: Kerem\n", "462: Serkan\n", "463: Hakan\n", "464: Cem\n", "465: Tolga\n", "466: Erkan\n", "467: Onur\n", "468: Bora\n", "469: Arda\n", "470: Kadir\n", "471: Mert\n", "472: ama\n", "473: amma\n", "474: anca\n", "475: ancak\n", "476: belki\n", "477: çünkü\n", "478: dahi\n", "479: eğer\n", "480: emme\n", "481: fakat\n", "482: gah\n", "483: gerek\n", "484: hakeza\n", "485: halbuki\n", "486: hatta\n", "487: hele\n", "488: hem\n", "489: hoş\n", "490: ile\n", "491: ile\n", "492: imdi\n", "493: ister\n", "494: kah\n", "495: keşke\n", "496: keza\n", "497: kezalik\n", "498: kim\n", "499: lakin\n", "500: madem\n", "501: mademki\n", "502: mamafih\n", "503: meğer\n", "504: meğerki\n", "505: meğerse\n", "506: netekim\n", "507: neyse\n", "508: nitekim\n", "509: oysa\n", "510: oysaki\n", "511: şayet\n", "512: velev\n", "513: velhasıl\n", "514: velhasılıkelam\n", "515: veya\n", "516: veyahut\n", "517: yahut\n", "518: yalnız\n", "519: yani\n", "520: yok\n", "521: yoksa\n", "522: zira\n", "523: acaba\n", "524: acep\n", "525: açıkça\n", "526: açıkçası\n", "527: adamakıllı\n", "528: adeta\n", "529: bazen\n", "530: bazı\n", "531: bilcümle\n", "532: binaen\n", "533: binaenaleyh\n", "534: bir\n", "535: biraz\n", "536: birazdan\n", "537: birden\n", "538: birden\n", "539: birdenbire\n", "540: birice\n", "541: birlikte\n", "542: bitevi\n", "543: biteviye\n", "544: bittabi\n", "545: bizatihi\n", "546: bizce\n", "547: bizcileyin\n", "548: bizden\n", "549: bizzat\n", "550: boşuna\n", "551: böyle\n", "552: böylece\n", "553: böylecene\n", "554: böylelikle\n", "555: böylemesine\n", "556: böylesine\n", "557: buracıkta\n", "558: burada\n", "559: buradan\n", "560: büsbütün\n", "561: çabuk\n", "562: çabukça\n", "563: çeşitli\n", "564: çoğu\n", "565: çoğun\n", "566: çoğunca\n", "567: çoğunlukla\n", "568: çok\n", "569: çokça\n", "570: çokluk\n", "571: çoklukla\n", "572: cuk\n", "573: daha\n", "574: dahil\n", "575: dahilen\n", "576: daima\n", "577: demin\n", "578: demincek\n", "579: deminden\n", "580: derakap\n", "581: derhal\n", "582: derken\n", "583: diye\n", "584: elbet\n", "585: elbette\n", "586: enikonu\n", "587: epey\n", "588: epeyce\n", "589: epeyi\n", "590: esasen\n", "591: esnasında\n", "592: etraflı\n", "593: etraflıca\n", "594: evleviyetle\n", "595: evvel\n", "596: evvela\n", "597: evvelce\n", "598: evvelden\n", "599: evvelemirde\n", "600: evveli\n", "601: gayet\n", "602: gayetle\n", "603: gayri\n", "604: gayrı\n", "605: geçende\n", "606: geçenlerde\n", "607: gene\n", "608: gerçi\n", "609: gibi\n", "610: gibilerden\n", "611: gibisinden\n", "612: gine\n", "613: halen\n", "614: halihazırda\n", "615: haliyle\n", "616: handiyse\n", "617: hani\n", "618: hasılı\n", "619: hulasaten\n", "620: iken\n", "621: illa\n", "622: illaki\n", "623: itibarıyla\n", "624: iyice\n", "625: iyicene\n", "626: kala\n", "627: kez\n", "628: kısaca\n", "629: külliyen\n", "630: lütfen\n", "631: nasıl\n", "632: nasılsa\n", "633: nazaran\n", "634: neden\n", "635: nedeniyle\n", "636: nedense\n", "637: nerde\n", "638: nerden\n", "639: nerdeyse\n", "640: nerede\n", "641: nereden\n", "642: neredeyse\n", "643: nereye\n", "644: neye\n", "645: neyi\n", "646: nice\n", "647: niçin\n", "648: nihayet\n", "649: nihayetinde\n", "650: niye\n", "651: oldu\n", "652: oldukça\n", "653: olur\n", "654: onca\n", "655: önce\n", "656: önceden\n", "657: önceleri\n", "658: öncelikle\n", "659: onculayın\n", "660: ondan\n", "661: oracık\n", "662: oracıkta\n", "663: orada\n", "664: oradan\n", "665: oranca\n", "666: oranla\n", "667: oraya\n", "668: öyle\n", "669: öylece\n", "670: öylelikle\n", "671: öylemesine\n", "672: pek\n", "673: pekala\n", "674: pekçe\n", "675: peki\n", "676: peyderpey\n", "677: sadece\n", "678: sahi\n", "679: sahiden\n", "680: sanki\n", "681: sonra\n", "682: sonradan\n", "683: sonraları\n", "684: sonunda\n", "685: şöyle\n", "686: şuncacık\n", "687: şuracıkta\n", "688: tabii\n", "689: tam\n", "690: tamam\n", "691: tamamen\n", "692: tamamıyla\n", "693: tek\n", "694: vasıtasıyla\n", "695: yakinen\n", "696: yakında\n", "697: yakından\n", "698: yakınlarda\n", "699: yalnız\n", "700: yalnızca\n", "701: yeniden\n", "702: yenilerde\n", "703: yine\n", "704: yok\n", "705: yoluyla\n", "706: yüzünden\n", "707: zaten\n", "708: zati\n", "709: ait\n", "710: bari\n", "711: beri\n", "712: bile\n", "713: değin\n", "714: dek\n", "715: denli\n", "716: doğru\n", "717: dolayı\n", "718: dolayısıyla\n", "719: gelgelelim\n", "720: gibi\n", "721: gırla\n", "722: göre\n", "723: hasebiyle\n", "724: için\n", "725: ila\n", "726: ile\n", "727: ilen\n", "728: indinde\n", "729: inen\n", "730: kadar\n", "731: kaffesi\n", "732: karşın\n", "733: kelli\n", "734: Leh\n", "735: maada\n", "736: mebni\n", "737: naşi\n", "738: rağmen\n", "739: üzere\n", "740: zarfında\n", "741: öbür\n", "742: bana\n", "743: başkası\n", "744: ben\n", "745: beriki\n", "746: birbiri\n", "747: birçoğu\n", "748: biri\n", "749: birileri\n", "750: birisi\n", "751: birkaçı\n", "752: biz\n", "753: bizimki\n", "754: buna\n", "755: bunda\n", "756: bundan\n", "757: bunlar\n", "758: bunu\n", "759: bunun\n", "760: burası\n", "761: çoğu\n", "762: çoğu\n", "763: çokları\n", "764: çoklarınca\n", "765: cümlesi\n", "766: değil\n", "767: diğeri\n", "768: filanca\n", "769: hangisi\n", "770: hepsi\n", "771: hiçbiri\n", "772: iş\n", "773: kaçı\n", "774: kaynak\n", "775: kendi\n", "776: kim\n", "777: kimi\n", "778: kimisi\n", "779: kimse\n", "780: kimse\n", "781: kimsecik\n", "782: kimsecikler\n", "783: nere\n", "784: neresi\n", "785: öbürkü\n", "786: öbürü\n", "787: ona\n", "788: onda\n", "789: ondan\n", "790: onlar\n", "791: onu\n", "792: onun\n", "793: öteki\n", "794: ötekisi\n", "795: öz\n", "796: sana\n", "797: sen\n", "798: siz\n", "799: şuna\n", "800: şunda\n", "801: şundan\n", "802: şunlar\n", "803: şunu\n", "804: şunun\n", "805: şura\n", "806: şuracık\n", "807: şurası\n", "808: acaba\n", "809: altmış\n", "810: altı\n", "811: ama\n", "812: ancak\n", "813: arada\n", "814: aslında\n", "815: ayrıca\n", "816: bana\n", "817: bazı\n", "818: belki\n", "819: ben\n", "820: benden\n", "821: beni\n", "822: benim\n", "823: beri\n", "824: beş\n", "825: bile\n", "826: bin\n", "827: bir\n", "828: birçok\n", "829: biri\n", "830: birkaç\n", "831: birkez\n", "832: birşey\n", "833: birşeyi\n", "834: biz\n", "835: bize\n", "836: bizden\n", "837: bizi\n", "838: bizim\n", "839: böyle\n", "840: böylece\n", "841: bu\n", "842: buna\n", "843: bunda\n", "844: bundan\n", "845: bunlar\n", "846: bunları\n", "847: bunların\n", "848: bunu\n", "849: bunun\n", "850: burada\n", "851: çok\n", "852: çünkü\n", "853: da\n", "854: daha\n", "855: dahi\n", "856: de\n", "857: defa\n", "858: değil\n", "859: diğer\n", "860: diye\n", "861: doksan\n", "862: dokuz\n", "863: dolayı\n", "864: dolayısıyla\n", "865: dört\n", "866: edecek\n", "867: eden\n", "868: ederek\n", "869: edilecek\n", "870: ediliyor\n", "871: edilmesi\n", "872: ediyor\n", "873: eğer\n", "874: elli\n", "875: en\n", "876: etmesi\n", "877: etti\n", "878: ettiği\n", "879: ettiğini\n", "880: gibi\n", "881: göre\n", "882: halen\n", "883: hangi\n", "884: hatta\n", "885: hem\n", "886: henüz\n", "887: hep\n", "888: hepsi\n", "889: her\n", "890: herhangi\n", "891: herkesin\n", "892: hiç\n", "893: hiçbir\n", "894: için\n", "895: iki\n", "896: ile\n", "897: ilgili\n", "898: ise\n", "899: işte\n", "900: itibaren\n", "901: itibariyle\n", "902: kadar\n", "903: karşın\n", "904: katrilyon\n", "905: kendi\n", "906: kendilerine\n", "907: kendini\n", "908: kendisi\n", "909: kendisine\n", "910: kendisini\n", "911: kez\n", "912: ki\n", "913: kim\n", "914: kimden\n", "915: kime\n", "916: kimi\n", "917: kimse\n", "918: kırk\n", "919: milyar\n", "920: milyon\n", "921: mu\n", "922: mü\n", "923: mı\n", "924: nasıl\n", "925: ne\n", "926: neden\n", "927: nedenle\n", "928: nerde\n", "929: nerede\n", "930: nereye\n", "931: niye\n", "932: niçin\n", "933: o\n", "934: olan\n", "935: olarak\n", "936: oldu\n", "937: olduğu\n", "938: olduğunu\n", "939: olduklarını\n", "940: olmadı\n", "941: olmadığı\n", "942: olmak\n", "943: olması\n", "944: olmayan\n", "945: olmaz\n", "946: olsa\n", "947: olsun\n", "948: olup\n", "949: olur\n", "950: olursa\n", "951: oluyor\n", "952: on\n", "953: ona\n", "954: ondan\n", "955: onlar\n", "956: onlardan\n", "957: onları\n", "958: onların\n", "959: onu\n", "960: onun\n", "961: otuz\n", "962: oysa\n", "963: öyle\n", "964: pek\n", "965: rağmen\n", "966: sadece\n", "967: sanki\n", "968: sekiz\n", "969: seksen\n", "970: sen\n", "971: senden\n", "972: seni\n", "973: senin\n", "974: siz\n", "975: sizden\n", "976: sizi\n", "977: sizin\n", "978: şey\n", "979: şeyden\n", "980: şeyi\n", "981: şeyler\n", "982: şöyle\n", "983: şu\n", "984: şuna\n", "985: şunda\n", "986: şundan\n", "987: şunları\n", "988: şunu\n", "989: tarafından\n", "990: trilyon\n", "991: tüm\n", "992: üç\n", "993: üzere\n", "994: var\n", "995: vardı\n", "996: ve\n", "997: veya\n", "998: ya\n", "999: yani\n", "1000: yapacak\n", "1001: yapılan\n", "1002: yapılması\n", "1003: yapıyor\n", "1004: yapmak\n", "1005: yaptı\n", "1006: yaptığı\n", "1007: yaptığını\n", "1008: yaptıkları\n", "1009: yedi\n", "1010: yerine\n", "1011: yetmiş\n", "1012: yine\n", "1013: yirmi\n", "1014: yoksa\n", "1015: yüz\n", "1016: zaten\n", "1017: altmış\n", "1018: altı\n", "1019: bazı\n", "1020: ben\n", "1021: birşey\n", "1022: birşeyi\n", "1023: mi\n", "1024: mı\n", "1025: nasıl\n", "1026: onlari\n", "1027: onlarýn\n", "1028: yetmiþ\n", "1029: bey\n", "1030: beyden\n", "1031: Beyi\n", "1032: beyi\n", "1033: beyler\n", "1034: bu\n", "1035: buna\n", "1036: bunda\n", "1037: bundan\n", "1038: bunu\n" ] } ], "source": [ "# stopwords.txt dosyasını aç ve içeriğini yazdır\n", "with open('stopwords.txt', 'r', encoding='utf-8') as file:\n", " stopwords = file.readlines()\n", "\n", "# Stopwords listesini yazdır\n", "for idx, word in enumerate(stopwords):\n", " print(f\"{idx + 1}: {word.strip()}\")\n", "\n" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Stopwords çıkarma işlemi tamamlandı. Sonuçlar 'temizlenmis_veri.csv' dosyasına kaydedildi.\n" ] } ], "source": [ "import pandas as pd\n", "\n", "# Stopwords dosyasını yükleme fonksiyonu\n", "def load_stopwords(file_path):\n", " with open(file_path, 'r', encoding='utf-8') as f:\n", " stopwords = f.read().splitlines() # Her satır bir stopword olacak şekilde yükle\n", " return set(stopwords)\n", "\n", "# Stopwords listesini yükle\n", "stop_words = load_stopwords('stopwords.txt')\n", "\n", "# Stop words çıkarma fonksiyonu\n", "def remove_stopwords_and_add_spaces(text):\n", " if isinstance(text, str): # Metin olup olmadığını kontrol et\n", " words = text.split() # Metni kelimelere böl\n", " filtered_words = [word for word in words if word.lower() not in stop_words] # Stop words çıkar\n", " return ' '.join(filtered_words) # Kalan kelimeleri birleştir ve araya boşluk koy\n", " else:\n", " return \"\" # Eğer metin değilse boş döndür\n", "\n", "# Veriyi parçalar halinde işleme\n", "chunksize = 10000 # Bellek yönetimi için her seferde 10.000 satır yükle\n", "output_file = 'temizlenmis_veri.csv'\n", "first_chunk = True # İlk chunk için başlık eklenmesi kontrolü\n", "\n", "# CSV'yi parça parça oku ve işleme al\n", "for chunk in pd.read_csv('veriler_cleaned.csv', chunksize=chunksize):\n", " # Stopwords çıkarma işlemi\n", " chunk['stopwords_removed'] = chunk['cleaned_text'].apply(remove_stopwords_and_add_spaces)\n", "\n", " # İşlenmiş veriyi dosyaya yaz\n", " chunk.to_csv(output_file, mode='a', index=False, header=first_chunk, encoding='utf-8')\n", " first_chunk = False # İlk chunk tamamlandığından başlık eklenmeyecek\n", "\n", "print(f\"Stopwords çıkarma işlemi tamamlandı. Sonuçlar '{output_file}' dosyasına kaydedildi.\")\n" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.10.11" } }, "nbformat": 4, "nbformat_minor": 2 }