Spaces:

retailcrmservices
/

omnidesk-ai-test

Runtime error

omnidesk-ai-test / extract_keywords.py

makcrx

test keywords

d869f0d over 1 year ago

4.72 kB

	def flatten(items, seqtypes=(list, tuple)):
	try:
	for i, x in enumerate(items):
	while isinstance(x, seqtypes):
	items[i:i+1] = x
	x = items[i]
	except IndexError:
	pass
	return items

	aliases = [
	#('canonical name', ['aliases', ...])
	('почта россия', ['почта', 'почта рф', 'пр', 'gh']),
	('почта россия трекинг', ['пр трекинг', 'почта трекинг', 'пр трэкинг', 'почта трэкинг']),
	('реестр почта', ['реестр пр', 'реестр почта россии']),
	('реестр пэк', []),
	('реквизиты', []),
	('пешкарики', []),
	('импорт лидов директ', []),
	('яндекс доставка экспресс', ['яндекс доставка express', 'яд экспресс', 'ядоставка экспресс']),
	('яндекс доставка ndd', ['яд ндд', 'я доставка ндд', 'ядоставка ндд', 'модуль ндд']),
	('яндекс метрика', ['яндекс метрика импорт']),
	('альфабанк', ['альфа банк', 'alfabank', 'альфа']),
	('импорт лидов facebook', ['импорт лидов fb', 'загрузка лидов fb', 'лиды фейсбук', 'импорт лидов фб', 'fb lead']),
	('маркетинговые расходы', ['расходы', 'загрузка расходов']),
	('cloudpayments', ['клауд', 'клаудпеймент', 'клаудпейментс']),
	('robokassa', ['робокасса', 'робокаса']),
	('sipuni', ['сипуни', 'сипьюни']),
	('mailchimp', ['майлчимп', 'мейлчим', 'мейлчимп']),
	('unisender', ['юнисендер']),
	('яндекс аудитории', ['экспорт аудитории', 'экспорт яндекс аудитории']),
	('экспорт facebook', ['экспорт сегментов facebook', 'экспорт fb', 'экспорт фейсбук', 'экспорт аудиторий фб', 'fb экспорт']),
	('экспорт вк', ['экспорт сегментов vkontakte', 'экспорт vk', 'экспорт контакте'])
	]

	vocab_raw = flatten([[k] + keywords for k, keywords in aliases])

	import string
	import pymorphy3

	morph = None
	def normalize_word(word):
	if word == 'лид':
	return word
	global morph
	if morph is None:
	morph = pymorphy3.MorphAnalyzer()
	return morph.parse(word)[0].normal_form

	def tokenize_sentence(text):
	# remove punctuation
	text = text.translate(str.maketrans(string.punctuation, ' ' * len(string.punctuation)))
	# tokenize
	return [normalize_word(word) for word in text.split()]

	def normalize_sentence(text):
	return " ".join(tokenize_sentence(text))

	def canonical_keywords(keywords):
	"""
	replace keyword aliases with canonical keyword names
	"""
	result = []
	for k in keywords:
	k = normalize_sentence(k)
	for canonical_name, alias_names in aliases:
	canonical_name = normalize_sentence(canonical_name)
	for a in alias_names:
	a = normalize_sentence(a)
	#print('a', a)
	if a == k:
	result.append(canonical_name)
	break
	else:
	continue
	break
	else:
	result.append(k)
	return result

	def merge_keywords(keywords):
	"""
	remove subkeywords
	"""
	result = []
	sorted_keywords = sorted(keywords, key=len, reverse=True)

	for k in sorted_keywords:
	for rk in result:
	if rk.lower().startswith(k):
	break
	else:
	result.append(k)
	continue

	return result


	vectorizer = None
	kw_model = None

	def init_keyword_extractor():
	global vectorizer
	global kw_model

	from keybert import KeyBERT
	import spacy
	from sklearn.feature_extraction.text import CountVectorizer

	kw_model = KeyBERT(model=spacy.load("ru_core_news_sm", exclude=['tokenizer', 'tagger', 'parser', 'ner', 'attribute_ruler', 'lemmatizer']))
	vocab = [" ".join(tokenize_sentence(s)) for s in vocab_raw]
	vectorizer = CountVectorizer(ngram_range=(1, 4), vocabulary=vocab, tokenizer=tokenize_sentence)

	def extract_keywords(text):
	global vectorizer
	global kw_model

	if vectorizer is None or kw_model is None:
	init_keyword_extractor()

	keywords = [k for k, score in kw_model.extract_keywords(text, vectorizer=vectorizer)]
	return merge_keywords(canonical_keywords(keywords))