Spaces:

pigotter
/

idec1

Sleeping

App Files Files Community

pigotter commited on Nov 15, 2023

Commit

7a0d3da

1 Parent(s): f364efb

Upload 20231115_hf_space_app.py

Browse files

Files changed (1) hide show

20231115_hf_space_app.py +66 -0

20231115_hf_space_app.py ADDED Viewed

	@@ -0,0 +1,66 @@

+# -*- coding: utf-8 -*-
+"""20231115_hf_space의 사본
+Automatically generated by Colaboratory.
+Original file is located at
+    https://colab.research.google.com/drive/167WkIz-J7_z4FG65GkVPfkosxIXlKMQq
+"""
+# 기사 요약해주는 각자 개인 사이트 만들기
+# 사이트: github pages: huggingface space
+!pip install gradio transformers sentencepiece transformers[sentencepiece] sacremoses
+import gradio as gr
+# Interface라는 클래스로 입출력 상자를 웹 엘리먼트로 자동 생성해줌
+from transformers import PreTrainedTokenizerFast,BartForConditionalGeneration
+# PreTrainedTokenizerFast: 사전 훈련된 토크나이저로, 텍스트를 모델이 이해할 수 있는 형식으로 변환합니다.
+# BartForConditionalGeneration: BART 모델의 변형으로 요약, 번역, 텍스트 생성 등에 사용
+# Bart는 encorder-decoder 모델의 예시
+# from transformers import로 시작하는 import문을 보면
+# 많은 경우 AutoTokenizer, AutoModel
+# tokenizer = AutoTokenizer.from_pretrained("model name")
+#  Load Model and Tokenize
+tokenizer = PreTrainedTokenizerFast.from_pretrained("ainize/kobart-news")
+model = BartForConditionalGeneration.from_pretrained("ainize/kobart-news")
+# Encode Input Text
+input_text = '국내 전반적인 경기침체로 상가 건물주의 수익도 전국적인 감소세를 보이고 있는 것으로 나타났다. 수익형 부동산 연구개발기업 상가정보연구소는 한국감정원 통계를 분석한 결과 전국 중대형 상가 순영업소득(부동산에서 발생하는 임대수입, 기타수입에서 제반 경비를 공제한 순소득)이 1분기 ㎡당 3만4200원에서 3분기 2만5800원으로 감소했다고 17일 밝혔다. 수도권, 세종시, 지방광역시에서 순영업소득이 가장 많이 감소한 지역은 3분기 1만3100원을 기록한 울산으로, 1분기 1만9100원 대비 31.4% 감소했다. 이어 대구(-27.7%), 서울(-26.9%), 광주(-24.9%), 부산(-23.5%), 세종(-23.4%), 대전(-21%), 경기(-19.2%), 인천(-18.5%) 순으로 감소했다. 지방 도시의 경우도 비슷했다. 경남의 3분기 순영업소득은 1만2800원으로 1분기 1만7400원 대비 26.4% 감소했으며 제주(-25.1%), 경북(-24.1%), 충남(-20.9%), 강원(-20.9%), 전남(-20.1%), 전북(-17%), 충북(-15.3%) 등도 감소세를 보였다. 조현택 상가정보연구소 연구원은 "올해 내수 경기의 침체된 분위기가 유지되며 상가, 오피스 등을 비롯한 수익형 부동산 시장의 분위기도 경직된 모습을 보였고 오피스텔, 지식산업센터 등의 수익형 부동산 공급도 증가해 공실의 위험도 늘었다"며 "실제 올 3분기 전국 중대형 상가 공실률은 11.5%를 기록하며 1분기 11.3% 대비 0.2% 포인트 증가했다"고 말했다. 그는 "최근 소셜커머스(SNS를 통한 전자상거래), 음식 배달 중개 애플리케이션, 중고 물품 거래 애플리케이션 등의 사용 증가로 오프라인 매장에 영향을 미쳤다"며 "향후 지역, 콘텐츠에 따른 상권 양극화 현상은 심화될 것으로 보인다"고 덧붙였다.'
+input_ids = tokenizer.encode(input_text, return_tensors="pt")
+# 각 토큰이 정수 ID로 바뀜
+# Generate Summary Text Ids
+summary_text_ids = model.generate(
+    input_ids=input_ids,
+    bos_token_id=model.config.bos_token_id, # BOS는 Beginning of Sentence
+    eos_token_id=model.config.eos_token_id, # EOS는 End Of Sentence
+    length_penalty=2.0,                     # 요약을 얼마나 짧게 할지
+    max_length=142,                         #
+    min_length=56,                          #
+    num_beams=4,                            # beam search -> 가지 수 라고 생각하면 됨. 가지 4개를 펼치고 그 각가지에서 4개를 펼친 후 총 16개중 가장 적합한 4개를 고른 가지를 펼쳐 반복 과정
+)
+# Decoding Text
+print(tokenizer.decode(summary_text_ids[0], skip_special_tokens=True))
+# 원문을 받아서 요약문을 반환
+def summ(txt):
+  input_ids = tokenizer.encode(input_text, return_tensors="pt")
+  summary_text_ids = model.generate(
+    input_ids=input_ids,
+    bos_token_id=model.config.bos_token_id, # BOS는 Beginning of Sentence
+    eos_token_id=model.config.eos_token_id, # EOS는 End Of Sentence
+    length_penalty=2.0,                     # 요약을 얼마나 짧게 할지
+    max_length=142,                         #
+    min_length=56,                          #
+    num_beams=4)                            # beam search -> 가지 수 라고 생각하면 됨. 가지 4개를 펼치고 그 각가지에서 4개를 펼친 후 총 16개중 가장 적합한 4개를 고른 가지를 펼쳐 반복 과정
+  return tokenizer.decode(summary_text_ids[0], skip_special_tokens=True)
+interface = gr.Interface(summ,
+                        [gr.Textbox(label = "original text")],
+                        [gr.Textbox(label = "summary")])
+interface.launch(share = True)