kltn20133118 commited on
Commit
c85c606
·
verified ·
1 Parent(s): dbaa71b

Upload 4 files

Browse files
Files changed (4) hide show
  1. connect_mongo.py +16 -0
  2. function.py +136 -0
  3. main.py +82 -0
  4. pipe_line_obsei.py +173 -0
connect_mongo.py ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ from pymongo import MongoClient
2
+ from pymongo.server_api import ServerApi
3
+
4
+ def connect_to_mongo(db_name: str, collection_name: str):
5
+
6
+ uri = "mongodb+srv://kltn20133118:XEYSVzYvEwsp5Cvo@cluster0.nnsw9.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
7
+ try:
8
+
9
+ client = MongoClient(uri, server_api=ServerApi('1'))
10
+ db = client[db_name]
11
+ collection = db[collection_name]
12
+ return collection
13
+
14
+ except Exception as e:
15
+ print("Lỗi kết nối MongoDB:", e)
16
+ return None
function.py ADDED
@@ -0,0 +1,136 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ from pymongo import MongoClient
2
+ from typing import List, Any
3
+ from connect_mongo import connect_to_mongo
4
+
5
+ class NewsDatabaseHandler:
6
+ def __init__(self, uri: str, db_name: str):
7
+ """
8
+ Khởi tạo kết nối MongoDB một lần duy nhất.
9
+ """
10
+ self.client = MongoClient(uri)
11
+ self.db = self.client[db_name]
12
+
13
+ def get_all(self, collection_name: str) -> List[dict]:
14
+ """
15
+ Lấy tất cả bản ghi từ collection.
16
+ """
17
+ collection = self.db[collection_name]
18
+ return list(collection.find())
19
+
20
+ def find_by_category(self, collection_name: str, category: str) -> List[dict]:
21
+ """
22
+ Tìm các bản ghi theo category.
23
+ """
24
+ collection = self.db[collection_name]
25
+ query = {"category": category}
26
+ return list(collection.find(query))
27
+
28
+ def save_to_mongo(self, data: List[dict], collection_name: str):
29
+ """
30
+ Lưu dữ liệu vào MongoDB.
31
+ """
32
+ collection = self.db[collection_name]
33
+ collection.insert_many(data)
34
+
35
+ def close(self):
36
+ """
37
+ Đóng kết nối MongoDB.
38
+ """
39
+ self.client.close()
40
+
41
+ from datetime import datetime
42
+
43
+ def find_key():
44
+ db_name = "news"
45
+ collection_name = "articles"
46
+
47
+ collection = connect_to_mongo(db_name, collection_name)
48
+
49
+ # Tìm tất cả các bài viết có "name" chứa từ "Campuchia" và thuộc về TuoiTre hoặc VnExpress
50
+ vnexpress_or_tuoitre_news = collection.find({
51
+ "$in": [
52
+ {"VnExpress.name": {"$regex": "Campuchia", "$options": "i"}} # Tìm kiếm trong VnExpres # Tìm kiếm trong TuoiTre
53
+ ]
54
+ })
55
+
56
+ # In ra các kết quả tìm được
57
+ for result in vnexpress_or_tuoitre_news:
58
+ # Nếu bạn chỉ muốn thấy bài viết chứa từ "Campuchia" trong tên:
59
+ if "Campuchia" in result.get('VnExpress', [{}])[0].get('name', '') or "Campuchia" in result.get('TuoiTre', [{}])[0].get('name', ''):
60
+ print(result)
61
+
62
+ # Gọi hàm tìm kiếm
63
+ # find_key()
64
+
65
+
66
+ def get_vnexpress_news(category):
67
+ db_name = "news"
68
+ collection_name = "articles"
69
+
70
+ collection = connect_to_mongo(db_name, collection_name)
71
+
72
+
73
+ # # Lấy thời gian hiện tại
74
+ # today = datetime.now().strftime("%Y-%m-%d")
75
+ # start_time = f"{today} 21:40:00"
76
+ # print(f"Start time: {start_time}")
77
+
78
+ # # Truy vấn MongoDB
79
+ # vnexpress_news = collection.find({
80
+ # "category": category,
81
+ # "VnExpress.time": {"$gte": start_time} # Điều kiện so sánh thời gian
82
+ # })
83
+
84
+
85
+
86
+ # filtered_news = []
87
+ # # Duyệt qua các bài báo và lọc ra các bài hợp lệ
88
+ # for result in vnexpress_news:
89
+ # if "VnExpress" in result:
90
+ # for news in result["VnExpress"]:
91
+ # # Lọc bỏ các mục trống hoặc không có dữ liệu
92
+ # if news and "time" in news:
93
+ # print(f"Checking time for news: {news['time']}")
94
+ # if news["time"] >= start_time:
95
+ # filtered_news.append(news)
96
+
97
+ # return filtered_news
98
+
99
+ # Gọi hàm và in kết quả
100
+ # news = get_vnexpress_news("VnExpress")
101
+
102
+
103
+ # if not news:
104
+ # print("No news found matching the criteria.")
105
+ # else:
106
+ # for article in news:
107
+ # print(f"Found article: {article}")
108
+ # Cấu hình kết nối
109
+
110
+
111
+
112
+ db_name = "test"
113
+ collection_name = "articles"
114
+ collection = connect_to_mongo(db_name, collection_name)
115
+
116
+ import datetime
117
+
118
+
119
+ # Tính thời gian 1h30 trước từ thời điểm hiện tại
120
+ time_limit = datetime.datetime.now() - datetime.timedelta(minutes=20)
121
+
122
+ time_limit = time_limit.replace(tzinfo=datetime.timezone.utc)
123
+ print(time_limit)
124
+
125
+
126
+ query = {
127
+ "category": "VnExpress",
128
+ "time": {"$gte": time_limit}
129
+ }
130
+
131
+ results = collection.find(query)
132
+
133
+ for result in results:
134
+ print("Bản ghi:")
135
+ print(result)
136
+ print("\n")
main.py ADDED
@@ -0,0 +1,82 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ from fastapi import FastAPI, HTTPException
2
+ from fastapi.middleware.cors import CORSMiddleware
3
+ from pydantic import BaseModel
4
+ import pipe_line_obsei
5
+
6
+ # Định nghĩa model request body
7
+ class URLProcessRequest(BaseModel):
8
+ target_url: str # URL cần phân tích
9
+ primary_db: str # Tên database chính
10
+ primary_collection: str # Tên collection chính
11
+ backup_db: str # Tên database dự phòng
12
+ backup_collection: str # Tên collection dự phòng
13
+
14
+ # Khởi tạo FastAPI
15
+ app = FastAPI(
16
+ title="ChatBot HCMUTE",
17
+ description="Python ChatBot is intended for use in the topic Customizing chatbots. With the construction of 2 students Vo Nhu Y - 20133118 and Nguyen Quang Phuc 20133080",
18
+ swagger_ui_parameters={"syntaxHighlight.theme": "obsidian"},
19
+ version="1.0.0",
20
+ contact={
21
+ "name": "Vo Nhu Y",
22
+ "url": "https://pychatbot1.streamlit.app",
23
+ "email": "vonhuy5112002@gmail.com",
24
+ },
25
+ license_info={
26
+ "name": "Apache 2.0",
27
+ "url": "https://www.apache.org/licenses/LICENSE-2.0.html",
28
+ }
29
+ )
30
+
31
+ # Cấu hình CORS
32
+ origins = [
33
+ "http://localhost:8000",
34
+ "https://yourfrontendapp.com", # Thêm domain của frontend nếu cần
35
+ ]
36
+
37
+ app.add_middleware(
38
+ CORSMiddleware,
39
+ allow_origins=origins,
40
+ allow_credentials=True,
41
+ allow_methods=["*"],
42
+ allow_headers=["*"],
43
+ )
44
+
45
+ @app.get("/")
46
+ async def root():
47
+ return {"message": "Welcome to ChatBot HCMUTE API!"}
48
+
49
+ @app.post("/api/v1/obsei/process_url/")
50
+ async def process_url_api(request: URLProcessRequest):
51
+ """
52
+ API nhận request body chứa thông tin URL và các thông tin database cần thiết,
53
+ sau đó xử lý URL, phân tích và lưu dữ liệu vào MongoDB.
54
+ """
55
+ try:
56
+ # Lấy dữ liệu từ request body
57
+ target_url = request.target_url
58
+ primary_db = request.primary_db
59
+ primary_collection = request.primary_collection
60
+ backup_db = request.backup_db
61
+ backup_collection = request.backup_collection
62
+
63
+ # Gọi hàm `process_url` đã định nghĩa
64
+ processed_text, content_data = await pipe_line_obsei.process_url(
65
+ target_url, primary_db, primary_collection, backup_db, backup_collection
66
+ )
67
+
68
+ return {
69
+ "processed_text": processed_text,
70
+ "content_data": content_data,
71
+ }
72
+ except Exception as e:
73
+ raise HTTPException(
74
+ status_code=500,
75
+ detail=f"An error occurred while processing the request: {str(e)}"
76
+ )
77
+
78
+
79
+ # Chạy FastAPI server
80
+ if __name__ == "__main__":
81
+ import uvicorn
82
+ uvicorn.run(app, port=8005)
pipe_line_obsei.py ADDED
@@ -0,0 +1,173 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import logging
2
+ import json
3
+ from transformers import pipeline
4
+ from obsei_module.obsei.payload import TextPayload
5
+ from obsei_module.obsei.analyzer.classification_analyzer import ZeroShotClassificationAnalyzer, ClassificationAnalyzerConfig
6
+ from obsei_module.obsei.source.website_crawler_source import TrafilaturaCrawlerConfig, TrafilaturaCrawlerSource
7
+ from obsei_module.obsei.sink.http_sink import HttpSinkConfig, HttpSink
8
+ from obsei_module.obsei.analyzer.sentiment_analyzer import *
9
+ import connect_mongo
10
+ import pymongo
11
+
12
+
13
+ async def get_object_by_link(db_name, collection_name, link):
14
+ collection = connect_mongo.connect_to_mongo(db_name, collection_name)
15
+
16
+ if collection is None:
17
+ print("Failed to connect to MongoDB.")
18
+ return None
19
+
20
+ result = collection.find_one({"link": link})
21
+
22
+ # if result:
23
+ # print(f"Object found: {result}")
24
+ # else:
25
+ # print(f"No object found for the link: {link}")
26
+
27
+ return result
28
+
29
+
30
+ # Hàm kết nối và kiểm tra bản ghi trong DB khác
31
+ async def get_existing_record_by_name(db_name, collection_name, name, link):
32
+ collection = connect_mongo.connect_to_mongo(db_name, collection_name)
33
+
34
+ if collection is None:
35
+ print("Failed to connect to MongoDB.")
36
+ return None
37
+
38
+ # Kiểm tra bản ghi có cùng name và link hay không
39
+ result = collection.find_one({"name": name, "link": link})
40
+
41
+ # if result:
42
+ # print(f"Existing record found for name: {name} and link: {link}")
43
+ # else:
44
+ # print(f"No existing record found for name: {name} and link: {link}")
45
+
46
+ return result
47
+
48
+ # Hàm lưu processed_text vào MongoDB với kiểm tra name
49
+ async def save_processed_text_to_mongo(db_name, collection_name, link, processed_text, name=None):
50
+ collection = connect_mongo.connect_to_mongo(db_name, collection_name)
51
+
52
+ if collection is None:
53
+ print("Failed to connect to MongoDB.")
54
+ return None
55
+
56
+ # Tạo bản ghi mới hoặc cập nhật bản ghi cũ
57
+ document = {
58
+ "link": link,
59
+ "processed_text": processed_text,
60
+ "name": name, # Thêm name cho bản ghi mới
61
+ }
62
+
63
+
64
+
65
+ # Kiểm tra sự tồn tại của bản ghi trong DB dự phòng
66
+ existing_record = await get_existing_record_by_name(db_name, collection_name, name, link)
67
+
68
+ if existing_record:
69
+ # Nếu bản ghi tồn tại, cập nhật
70
+ result = collection.update_one(
71
+ {"_id": existing_record["_id"]},
72
+ {
73
+ "$set": document
74
+ }
75
+ )
76
+ if result.modified_count > 0:
77
+ print(f"Successfully updated the record for {link}.")
78
+ else:
79
+ print(f"No changes made to the record for {link}.")
80
+ else:
81
+ # Nếu bản ghi chưa tồn tại, tạo mới
82
+ result = collection.insert_one(document)
83
+ print(f"Successfully inserted a new record for {link}.")
84
+
85
+ return result
86
+
87
+ # Hàm xử lý URL, lấy dữ liệu, phân tích và lưu processed_text vào MongoDB
88
+ async def process_url(url: str, db_name: str, collection_name: str,backup_db_name: str, backup_collection_name: str):
89
+ """Crawl data from the URL and analyze it with a Zero-shot classification model."""
90
+ logging.basicConfig(level=logging.INFO)
91
+ logger = logging.getLogger(__name__)
92
+
93
+ # Bước 1: Crawl dữ liệu từ URL
94
+ crawler_config = TrafilaturaCrawlerConfig(
95
+ urls=[url]
96
+ )
97
+ crawler = TrafilaturaCrawlerSource()
98
+
99
+ crawled_data = crawler.lookup(config=crawler_config)
100
+ if not crawled_data:
101
+ logger.error("No data found from crawler")
102
+ return {"error": "No data found from crawler"}
103
+
104
+
105
+ # Bước 2: Cấu hình phân tích với Zero-shot classification
106
+ analyzer_config = ClassificationAnalyzerConfig(
107
+ labels=["Sports", "Politics", "Technology", "Entertainment"],
108
+ multi_class_classification=False,
109
+ add_positive_negative_labels=False
110
+ )
111
+
112
+ analyzer = ZeroShotClassificationAnalyzer(
113
+ model_name_or_path="facebook/bart-large-mnli",
114
+ device="auto"
115
+ )
116
+
117
+ # Phân tích dữ liệu crawled_data
118
+ analysis_results = analyzer.analyze_input(
119
+ source_response_list=crawled_data,
120
+ analyzer_config=analyzer_config
121
+ )
122
+ # transformers_analyzer_config = TransformersSentimentAnalyzerConfig(
123
+ # labels=["positive", "negative"],
124
+ # multi_class_classification=False,
125
+ # add_positive_negative_labels=True
126
+ # )
127
+ # transformers_analyzer = TransformersSentimentAnalyzer(model_name_or_path="facebook/bart-large-mnli", device="auto")
128
+ # transformers_results = transformers_analyzer.analyze_input(crawled_data, analyzer_config=transformers_analyzer_config)
129
+
130
+ # Cấu hình HttpSink (nếu cần gửi dữ liệu đi nơi khác)
131
+ http_sink_config = HttpSinkConfig(
132
+ url="https://httpbin.org/post",
133
+ headers={"Content-type": "application/json"},
134
+ base_payload={"common_field": "test cua VNY"},
135
+ )
136
+
137
+ http_sink = HttpSink()
138
+
139
+ responses = http_sink.send_data(analysis_results, http_sink_config)
140
+
141
+ response_data = []
142
+ for i, response in enumerate(responses):
143
+ response_content = response.read().decode("utf-8")
144
+ response_json = json.loads(response_content)
145
+
146
+ response_data.append({
147
+ "response_index": i + 1,
148
+ "content": response_json,
149
+ "status_code": response.status,
150
+ "headers": dict(response.getheaders())
151
+ })
152
+
153
+ content_data = [item["content"] for item in response_data]
154
+ processed_text = content_data[0].get("json", {}).get('segmented_data', 'No processed text available.')
155
+ processed_text1 = content_data[0].get("json", {})
156
+ content_data = processed_text1.get('meta').get('text')
157
+ existing_record = await get_object_by_link(db_name, collection_name, url)
158
+ if existing_record:
159
+ existing_segmented_data = existing_record.get("segmented_data", {})
160
+ existing_segmented_data.update({"new_analysis": processed_text})
161
+ await save_processed_text_to_mongo(backup_db_name, backup_collection_name, url, processed_text, name="Sentiment Analysis")
162
+ else:
163
+ await save_processed_text_to_mongo(backup_db_name, backup_collection_name, url, processed_text, name="Sentiment Analysis")
164
+
165
+ return processed_text,content_data
166
+
167
+ # url = "https://laodong.vn/bong-da-quoc-te/vua-phat-goc-nicolas-jover-la-vo-gia-voi-arsenal-1431091.ldo"
168
+ # db_name = "test"
169
+ # import asyncio
170
+ # collection_name = "articles"
171
+ # backup_db_name = "backup_test"
172
+ # backup_collection_name = "articles_analysis"
173
+ # processed_text = asyncio.run(process_url(url, db_name, collection_name, backup_db_name, backup_collection_name))