ThucPD commited on
Commit
dbaaee7
1 Parent(s): 81a8d5f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +16 -16
README.md CHANGED
@@ -29,9 +29,9 @@ widget:
29
  <!-- ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/66e93d483745423cbb14c5ff/fNxjr3en_onzbOv0sghpE.jpeg) -->
30
 
31
  # EraX-VL-7B-V1
32
- ## Introduction🎉
33
 
34
- We are excited to introduce **EraX-VL-7B-v1**, a robust multimodal model for **OCR (optical character recognition)** and **VQA (visual question-answering)** that excels in various languages🌍, with a particular focus on Vietnamese🇻🇳. The `EraX-VL-7B` model stands out for its precise recognition capabilities across a range of documents📝, including medical forms 🩺, invoices 🧾, bills of sale 💳, quotes 📄, and medical records 💊. This functionality is expected to be highly beneficial for hospitals 🏥, clinics 💉, insurance companies 🛡️, and other similar applications 📋. Built on the solid foundation of the [Qwen/Qwen2-VL-7B-Instruct](https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct)[1], which we found to be of high quality and fluent in Vietnamese, `EraX-VL-7B` has been fine-tuned to enhance its performance. We plan to continue improving and releasing new versions for free, along with sharing performance benchmarks in the near future.
35
 
36
  **EraX-VL-7B-V1** is a young member of our **EraX's LànhGPT** collection of LLM models.
37
 
@@ -47,13 +47,13 @@ We are excited to introduce **EraX-VL-7B-v1**, a robust multimodal model for **O
47
  - **License:** Apache 2.0
48
  - **Fine-tuned from:** [Qwen/Qwen2-VL-7B-Instruct](https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct)
49
 
50
- ## Benchmarks📊
51
  Coming Soon!!!
52
 
53
  ## API trial 🎉
54
  Please contact **nguyen@erax.ai** for API access inquiry.
55
 
56
- ## Examples🧩
57
 
58
  ### Example 01:
59
 
@@ -188,11 +188,11 @@ Hình ảnh chụp một khung cảnh đồng quê Việt Nam với những nét
188
  </div>
189
 
190
  - **User**: Hãy trích xuất toàn bộ chi tiết của bức ảnh này theo đúng thứ tự của nội dung trong ảnh. Không bình luận gì thêm.
191
- <ins>Lưu ý:</ins>
192
- 1. Nếu có chữ trong ảnh thì phải trích xuất ra hết theo thứ tự và định dạng của câu chữ.
193
- 2. Nếu có bảng biểu (table) thì phải trả lại định dạng như bảng biểu trong hình và text của nó.
194
- 3. Nếu bức ảnh không có bất kỳ ký tự nào, hãy diễn giải bức ảnh đó.
195
- 4. Chỉ trả lại bằng tiếng Việt.
196
 
197
  - **Assistant**: Bức ảnh là một giấy hẹn khám lại từ Bệnh viện Ung Bướu Nghệ An. Giấy hẹn được cấp cho bệnh nhân Nguyễn Thị Luân, sinh ngày 03/07/1976, hiện đang cư trú tại Xã Nghĩa Khánh - Huyện Nghĩa Đàn - Nghệ An. Giấy hẹn ghi rõ thông tin về lần sử dụng thuốc BHYT từ ngày 01/03/2016 đến 16/12/2016, với số thẻ BHYT là CN 3 40 40 168 60413. Ngày khám ban đầu là 16/12/2016 và giờ khám là buổi trưa. Giấy hẹn khám lại vào ngày 17/01/2017 hoặc trước khi hết thời hạn sử dụng thẻ bảo hiểm y tế nếu có dấu hiệu triệu chứng bất thường. Giấy hẹn cũng chỉ áp dụng cho một lần khám duy nhất trong vòng 10 ngày làm việc kể từ ngày được hẹn khám lại. Bên dưới phần thông tin bệnh nhân là chữ ký của Trưởng khoa, bác sĩ điều trị và con dấu đỏ của Bệnh viện Ung Bướu Nghệ An. Ngoài ra, trên góc phải của giấy hẹn còn có dòng chữ 'Tổng đài tư vấn 1900.6172' cùng logo của bệnh viện.
198
 
@@ -223,11 +223,11 @@ Hình ảnh chụp một khung cảnh đồng quê Việt Nam với những nét
223
 
224
  - **Assistant**: Hình ảnh đầu tiên là một bức tranh sơn dầu v��i phong cách tả thực, thể hiện khung cảnh làng quê Việt Nam thanh bình. Bức tranh được vẽ với gam màu tươi sáng, rực rỡ, tạo cảm giác ấm áp, vui tươi. Nền trời xanh biếc, điểm xuyết những đám mây trắng bồng bềnh. Phía xa là dãy núi xanh ngắt, thấp thoáng những ngôi nhà mái ngói đỏ au. Giữa khung cảnh là dòng sông uốn lượn, chảy hiền hòa giữa cánh đồng lúa chín vàng óng ánh. Hai bên bờ sông là những hàng cây xanh mát rượi, tạo nên một bức tranh thiên nhiên thơ mộng, hữu tình. Trên dòng sông, có hai người đang ngồi trên thuyền nhỏ, tay cầm lái, hướng về phía trước. Bên cạnh đó, còn có một người phụ nữ đang đi trên con đường đất nhỏ, hướng về phía làng. Hình ảnh này gợi lên một cuộc sống thanh bình, yên ả của người dân làng quê Việt Nam.
225
 
226
- Hình ảnh thứ hai là một bức ảnh chụp chân dung, thể hiện sự hồn nhiên, trong sáng của tuổi thơ. Trong ảnh, có ba nhân vật chính: hai cậu bé và một người đàn ông. Cậu bé lớn hơn đang cưỡi trên lưng con trâu đen, hai tay nắm chặt vào dây cương, vẻ mặt đầy thích thú. Cậu bé nhỏ hơn ngồi sau lưng cậu bạn lớn, tay cầm một chiếc mũ rộng vành, nhìn về phía trước với ánh mắt ngây thơ. Người đàn ông đứng ở phía sau, mặc quần đùi, tay cầm một cái chậu nước, đang đổ nước lên đầu hai cậu bé. Bối cảnh của bức ảnh là một cánh đồng cỏ xanh mướt, phía xa là những hàng cây xanh mát. Ánh nắng ban mai chiếu rọi xuống cánh đồng, tạo nên một khung cảnh đẹp như tranh vẽ.
227
 
228
- Bức ảnh này mang đến cho người xem cảm giác vui tươi, hồn nhiên, thể hiện nét đẹp văn hóa truyền thống của người nông dân Việt Nam.
229
 
230
- ## Quickstart🎮
231
  [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1CnSxtWDLG48-NQh7wk9_z8WI7J4OY_Ci?usp=sharing)
232
 
233
  Install the necessary packages:
@@ -333,10 +333,10 @@ output_text = processor.batch_decode(
333
  print(output_text[0])
334
  ```
335
 
336
- ## Acknowledgments👏
337
  We thank Khang Đoàn ([5CD-AI](https://huggingface.co/5CD-AI)) for his invaluable support in order to train `EraX-VL-7B-V1`. Our appreciation also goes to AAA JS Company for their support and resources, which significantly contributed to this project.
338
 
339
- ## Citation📝
340
  <!-- - title={EraX-VL-7B-V1: A Highly Efficient Multimodal LLM for Vietnamese, especially for medical forms and bills.},
341
  - author={Nguyễn Anh Nguyên and Nguyễn Hồ Nam (BCG) and Dũng Hoàng and Thục Phạm and Nhật Phạm},
342
  - helpers={Khang Đoàn and AAA JS Company},
@@ -353,7 +353,7 @@ If you find our project useful, we would appreciate it if you could star our rep
353
  }
354
  ```
355
 
356
- ## References📑
357
  [1] Qwen team. Qwen2-VL. 2024.
358
 
359
  [2] Bai, Jinze, et al. "Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond." arXiv preprint arXiv:2308.12966 (2023).
@@ -367,6 +367,6 @@ If you find our project useful, we would appreciate it if you could star our rep
367
  [7] Tran, Chi, and Huong Le Thanh. "LaVy: Vietnamese Multimodal Large Language Model." arXiv preprint arXiv:2404.07922 (2024).
368
 
369
 
370
- ## Contact🤝
371
  - For correspondence regarding this work, please contact Nguyễn Anh Nguyên at [nguyen@erax.ai](nguyen@erax.ai).
372
  - If you need API access, please email [nguyen@erax.ai](nguyen@erax.ai); we will also release our Github codes shortly.
 
29
  <!-- ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/66e93d483745423cbb14c5ff/fNxjr3en_onzbOv0sghpE.jpeg) -->
30
 
31
  # EraX-VL-7B-V1
32
+ ## Introduction 🎉
33
 
34
+ We are excited to introduce **EraX-VL-7B-v1**, a robust multimodal model for **OCR (optical character recognition)** and **VQA (visual question-answering)** that excels in various languages 🌍, with a particular focus on Vietnamese 🇻🇳. The `EraX-VL-7B` model stands out for its precise recognition capabilities across a range of documents 📝, including medical forms 🩺, invoices 🧾, bills of sale 💳, quotes 📄, and medical records 💊. This functionality is expected to be highly beneficial for hospitals 🏥, clinics 💉, insurance companies 🛡️, and other similar applications 📋. Built on the solid foundation of the [Qwen/Qwen2-VL-7B-Instruct](https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct)[1], which we found to be of high quality and fluent in Vietnamese, `EraX-VL-7B` has been fine-tuned to enhance its performance. We plan to continue improving and releasing new versions for free, along with sharing performance benchmarks in the near future.
35
 
36
  **EraX-VL-7B-V1** is a young member of our **EraX's LànhGPT** collection of LLM models.
37
 
 
47
  - **License:** Apache 2.0
48
  - **Fine-tuned from:** [Qwen/Qwen2-VL-7B-Instruct](https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct)
49
 
50
+ ## Benchmarks 📊
51
  Coming Soon!!!
52
 
53
  ## API trial 🎉
54
  Please contact **nguyen@erax.ai** for API access inquiry.
55
 
56
+ ## Examples 🧩
57
 
58
  ### Example 01:
59
 
 
188
  </div>
189
 
190
  - **User**: Hãy trích xuất toàn bộ chi tiết của bức ảnh này theo đúng thứ tự của nội dung trong ảnh. Không bình luận gì thêm.
191
+ Lưu ý:
192
+ 1. Nếu có chữ trong ảnh thì phải trích xuất ra hết theo thứ tự và định dạng của câu chữ.
193
+ 2. Nếu có bảng biểu (table) thì phải trả lại định dạng như bảng biểu trong hình và text của nó.
194
+ 3. Nếu bức ảnh không có bất kỳ ký tự nào, hãy diễn giải bức ảnh đó.
195
+ 4. Chỉ trả lại bằng tiếng Việt.
196
 
197
  - **Assistant**: Bức ảnh là một giấy hẹn khám lại từ Bệnh viện Ung Bướu Nghệ An. Giấy hẹn được cấp cho bệnh nhân Nguyễn Thị Luân, sinh ngày 03/07/1976, hiện đang cư trú tại Xã Nghĩa Khánh - Huyện Nghĩa Đàn - Nghệ An. Giấy hẹn ghi rõ thông tin về lần sử dụng thuốc BHYT từ ngày 01/03/2016 đến 16/12/2016, với số thẻ BHYT là CN 3 40 40 168 60413. Ngày khám ban đầu là 16/12/2016 và giờ khám là buổi trưa. Giấy hẹn khám lại vào ngày 17/01/2017 hoặc trước khi hết thời hạn sử dụng thẻ bảo hiểm y tế nếu có dấu hiệu triệu chứng bất thường. Giấy hẹn cũng chỉ áp dụng cho một lần khám duy nhất trong vòng 10 ngày làm việc kể từ ngày được hẹn khám lại. Bên dưới phần thông tin bệnh nhân là chữ ký của Trưởng khoa, bác sĩ điều trị và con dấu đỏ của Bệnh viện Ung Bướu Nghệ An. Ngoài ra, trên góc phải của giấy hẹn còn có dòng chữ 'Tổng đài tư vấn 1900.6172' cùng logo của bệnh viện.
198
 
 
223
 
224
  - **Assistant**: Hình ảnh đầu tiên là một bức tranh sơn dầu v��i phong cách tả thực, thể hiện khung cảnh làng quê Việt Nam thanh bình. Bức tranh được vẽ với gam màu tươi sáng, rực rỡ, tạo cảm giác ấm áp, vui tươi. Nền trời xanh biếc, điểm xuyết những đám mây trắng bồng bềnh. Phía xa là dãy núi xanh ngắt, thấp thoáng những ngôi nhà mái ngói đỏ au. Giữa khung cảnh là dòng sông uốn lượn, chảy hiền hòa giữa cánh đồng lúa chín vàng óng ánh. Hai bên bờ sông là những hàng cây xanh mát rượi, tạo nên một bức tranh thiên nhiên thơ mộng, hữu tình. Trên dòng sông, có hai người đang ngồi trên thuyền nhỏ, tay cầm lái, hướng về phía trước. Bên cạnh đó, còn có một người phụ nữ đang đi trên con đường đất nhỏ, hướng về phía làng. Hình ảnh này gợi lên một cuộc sống thanh bình, yên ả của người dân làng quê Việt Nam.
225
 
226
+ Hình ảnh thứ hai là một bức ảnh chụp chân dung, thể hiện sự hồn nhiên, trong sáng của tuổi thơ. Trong ảnh, có ba nhân vật chính: hai cậu bé và một người đàn ông. Cậu bé lớn hơn đang cưỡi trên lưng con trâu đen, hai tay nắm chặt vào dây cương, vẻ mặt đầy thích thú. Cậu bé nhỏ hơn ngồi sau lưng cậu bạn lớn, tay cầm một chiếc mũ rộng vành, nhìn về phía trước với ánh mắt ngây thơ. Người đàn ông đứng ở phía sau, mặc quần đùi, tay cầm một cái chậu nước, đang đổ nước lên đầu hai cậu bé. Bối cảnh của bức ảnh là một cánh đồng cỏ xanh mướt, phía xa là những hàng cây xanh mát. Ánh nắng ban mai chiếu rọi xuống cánh đồng, tạo nên một khung cảnh đẹp như tranh vẽ.
227
 
228
+ Bức ảnh này mang đến cho người xem cảm giác vui tươi, hồn nhiên, thể hiện nét đẹp văn hóa truyền thống của người nông dân Việt Nam.
229
 
230
+ ## Quickstart 🎮
231
  [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1CnSxtWDLG48-NQh7wk9_z8WI7J4OY_Ci?usp=sharing)
232
 
233
  Install the necessary packages:
 
333
  print(output_text[0])
334
  ```
335
 
336
+ ## Acknowledgments 👏
337
  We thank Khang Đoàn ([5CD-AI](https://huggingface.co/5CD-AI)) for his invaluable support in order to train `EraX-VL-7B-V1`. Our appreciation also goes to AAA JS Company for their support and resources, which significantly contributed to this project.
338
 
339
+ ## Citation 📝
340
  <!-- - title={EraX-VL-7B-V1: A Highly Efficient Multimodal LLM for Vietnamese, especially for medical forms and bills.},
341
  - author={Nguyễn Anh Nguyên and Nguyễn Hồ Nam (BCG) and Dũng Hoàng and Thục Phạm and Nhật Phạm},
342
  - helpers={Khang Đoàn and AAA JS Company},
 
353
  }
354
  ```
355
 
356
+ ## References 📑
357
  [1] Qwen team. Qwen2-VL. 2024.
358
 
359
  [2] Bai, Jinze, et al. "Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond." arXiv preprint arXiv:2308.12966 (2023).
 
367
  [7] Tran, Chi, and Huong Le Thanh. "LaVy: Vietnamese Multimodal Large Language Model." arXiv preprint arXiv:2404.07922 (2024).
368
 
369
 
370
+ ## Contact 🤝
371
  - For correspondence regarding this work, please contact Nguyễn Anh Nguyên at [nguyen@erax.ai](nguyen@erax.ai).
372
  - If you need API access, please email [nguyen@erax.ai](nguyen@erax.ai); we will also release our Github codes shortly.