Jasonai commited on
Commit
ac4fce0
·
1 Parent(s): 44e77dc

feat(总结word文档):增加读取docx、doc格式的功能

Browse files
crazy_functions/总结word文档.py ADDED
@@ -0,0 +1,123 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ from predict import predict_no_ui
2
+ from toolbox import CatchException, report_execption, write_results_to_file, predict_no_ui_but_counting_down
3
+ fast_debug = False
4
+
5
+
6
+ def 解析docx(file_manifest, project_folder, top_p, temperature, chatbot, history, systemPromptTxt):
7
+ import time, os
8
+ # pip install python-docx 用于docx格式,跨平台
9
+ # pip install pywin32 用于doc格式,仅支持Win平台
10
+
11
+ print('begin analysis on:', file_manifest)
12
+ for index, fp in enumerate(file_manifest):
13
+ if fp.split(".")[-1] == "docx":
14
+ from docx import Document
15
+ doc = Document(fp)
16
+ file_content = "\n".join([para.text for para in doc.paragraphs])
17
+ else:
18
+ import win32com.client
19
+ word = win32com.client.Dispatch("Word.Application")
20
+ word.visible = False
21
+ # 打开文件
22
+ print('fp', os.getcwd())
23
+ doc = word.Documents.Open(os.getcwd() + '/' + fp)
24
+ # file_content = doc.Content.Text
25
+ doc = word.ActiveDocument
26
+ file_content = doc.Range().Text
27
+ doc.Close()
28
+ word.Quit()
29
+
30
+ print(file_content)
31
+
32
+ prefix = "接下来请你逐文件分析下面的论文文件," if index == 0 else ""
33
+ # private_upload里面的文件名在解压zip后容易出现乱码(rar和7z格式正常),故可以只分析文章内容,不输入文件名
34
+ i_say = prefix + f'请对下面的文章片段用中英文做概述,文件名是{os.path.relpath(fp, project_folder)},' \
35
+ f'文章内容是 ```{file_content}```'
36
+ i_say_show_user = prefix + f'[{index+1}/{len(file_manifest)}] 假设你是论文审稿专家,请对下面的文章片段做概述: {os.path.abspath(fp)}'
37
+ chatbot.append((i_say_show_user, "[Local Message] waiting gpt response."))
38
+ yield chatbot, history, '正常'
39
+
40
+ if not fast_debug:
41
+ msg = '正常'
42
+ # ** gpt request **
43
+ gpt_say = yield from predict_no_ui_but_counting_down(i_say, i_say_show_user, chatbot, top_p, temperature,
44
+ history=[]) # 带超时倒计时
45
+ chatbot[-1] = (i_say_show_user, gpt_say)
46
+ history.append(i_say_show_user);
47
+ history.append(gpt_say)
48
+ yield chatbot, history, msg
49
+ if not fast_debug: time.sleep(2)
50
+
51
+ """
52
+ # 可按需启用
53
+ i_say = f'根据你上述的分析,对全文进行概括,用学术性语言写一段中文摘要,然后再写一篇英文的。'
54
+ chatbot.append((i_say, "[Local Message] waiting gpt response."))
55
+ yield chatbot, history, '正常'
56
+
57
+
58
+ i_say = f'我想让你做一个论文写作导师。您的任务是使用人工智能工具(例如自然语言处理)提供有关如何改进其上述文章的反馈。' \
59
+ f'您还应该利用您在有效写作技巧方面的修辞知识和经验来建议作者可以更好地以书面形式表达他们的想法和想法的方法。' \
60
+ f'根据你之前的分析,提出建议'
61
+ chatbot.append((i_say, "[Local Message] waiting gpt response."))
62
+ yield chatbot, history, '正常'
63
+
64
+ """
65
+
66
+ if not fast_debug:
67
+ msg = '正常'
68
+ # ** gpt request **
69
+ gpt_say = yield from predict_no_ui_but_counting_down(i_say, i_say, chatbot, top_p, temperature,
70
+ history=history) # 带超时倒计时
71
+
72
+ chatbot[-1] = (i_say, gpt_say)
73
+ history.append(i_say)
74
+ history.append(gpt_say)
75
+ yield chatbot, history, msg
76
+ res = write_results_to_file(history)
77
+ chatbot.append(("完成了吗?", res))
78
+ yield chatbot, history, msg
79
+
80
+
81
+ @CatchException
82
+ def 总结word文档(txt, top_p, temperature, chatbot, history, systemPromptTxt, WEB_PORT):
83
+ import glob, os
84
+
85
+ yield chatbot, history, '正常'
86
+
87
+ # 尝试导入依赖,如果缺少依赖,则给出安装建议
88
+ try:
89
+ from docx import Document
90
+ except:
91
+ report_execption(chatbot, history,
92
+ a=f"解析项目: {txt}",
93
+ b=f"导入软件依赖失败。使用该模块需要额外依赖,安装方法```pip install --upgrade pymupdf```。")
94
+ yield chatbot, history, '正常'
95
+ return
96
+
97
+ # 清空历史,以免输入溢出
98
+ history = []
99
+
100
+ # 检测输入参数,如没有给定输入参数,直接退出
101
+ if os.path.exists(txt):
102
+ project_folder = txt
103
+ else:
104
+ if txt == "": txt = '空空如也的输入栏'
105
+ report_execption(chatbot, history, a=f"解析项目: {txt}", b=f"找不到本地项目或无权访问: {txt}")
106
+ yield chatbot, history, '正常'
107
+ return
108
+
109
+ # 搜索需要处理的文件清单
110
+ file_manifest = [f for f in glob.glob(f'{project_folder}/**/*.docx', recursive=True)] + \
111
+ [f for f in glob.glob(f'{project_folder}/**/*.doc', recursive=True)]
112
+ # [f for f in glob.glob(f'{project_folder}/**/*.tex', recursive=True)] + \
113
+ # [f for f in glob.glob(f'{project_folder}/**/*.cpp', recursive=True)] + \
114
+ # [f for f in glob.glob(f'{project_folder}/**/*.c', recursive=True)]
115
+
116
+ # 如果没找到任何文件
117
+ if len(file_manifest) == 0:
118
+ report_execption(chatbot, history, a=f"解析项目: {txt}", b=f"找不到任何.docx或doc文件: {txt}")
119
+ yield chatbot, history, '正常'
120
+ return
121
+
122
+ # 开始正式执行任务
123
+ yield from 解析docx(file_manifest, project_folder, top_p, temperature, chatbot, history, systemPromptTxt)
functional_crazy.py CHANGED
@@ -13,6 +13,7 @@ def get_crazy_functionals():
13
  from crazy_functions.解析项目源代码 import 解析一个C项目
14
  from crazy_functions.高级功能函数模板 import 高阶功能模板函数
15
  from crazy_functions.代码重写为全英文_多线程 import 全项目切换英文
 
16
 
17
  function_plugins = {
18
  "请解析并解构此项目本身": {
@@ -44,6 +45,9 @@ def get_crazy_functionals():
44
  "[函数插件模板demo] 历史上的今天": {
45
  "Function": 高阶功能模板函数
46
  },
 
 
 
47
  }
48
 
49
  # VisibleLevel=1 经过测试,但功能未达到理想状态
 
13
  from crazy_functions.解析项目源代码 import 解析一个C项目
14
  from crazy_functions.高级功能函数模板 import 高阶功能模板函数
15
  from crazy_functions.代码重写为全英文_多线程 import 全项目切换英文
16
+ from crazy_functions.总结word文档 import 总结word文档
17
 
18
  function_plugins = {
19
  "请解析并解构此项目本身": {
 
45
  "[函数插件模板demo] 历史上的今天": {
46
  "Function": 高阶功能模板函数
47
  },
48
+ "[总结word文档demo] 解析word文档": {
49
+ "Function": 总结word文档
50
+ },
51
  }
52
 
53
  # VisibleLevel=1 经过测试,但功能未达到理想状态