uiuc-convai
/

CoALM-70B

Safetensors

English

llama

Model card Files Files and versions Community

emrecanacikgoz commited on 4 days ago

Commit

ee09ff5

verified ·

1 Parent(s): a7048c1

Update README.md

Browse files

Files changed (1) hide show

README.md +14 -14

README.md CHANGED Viewed

@@ -8,14 +8,14 @@ base_model:
 - meta-llama/Llama-3.3-70B-Instruct
 ---
-# CALM-70B: Conversational Agentic Language Model
 [![Made with Oumi](https://badgen.net/badge/Made%20with/Oumi/%23085CFF?icon=https%3A%2F%2Foumi.ai%2Flogo_dark.svg)](https://github.com/oumi-ai/oumi)
 ## Model Description
-**CALM-70B** is our middle scale **Conversational Agentic Language Model**, designed to integrate **Task-Oriented Dialogue (TOD) capabilities** with **Language Agent (LA) functionalities** at a **larger scale** than its predecessor CALM-8B. By leveraging **CALM-IT**, a multi-task dataset interleaving **multi-turn ReAct reasoning** with **complex API usage**, CALM-70B achieves **state-of-the-art performance** across TOD and function-calling benchmarks.
-CALM-70B has been fine-tuned on a **comprehensive multi-tasking** covering dialogue state tracking, function calling, and multi-turn reasoning, surpassing even proprietary models like **GPT-4o** on major conversational evaluation benchmarks: **MultiWOZ 2.4 (TOD), BFCL V3 (LA), and API-Bank (LA).**
 ## Model Sources
@@ -23,20 +23,20 @@ CALM-70B has been fine-tuned on a **comprehensive multi-tasking** covering dialo
 <!-- Provide the basic links for the model. -->
 - 📝 **Paper:** https://arxiv.org/abs/2502.08820
-- 🌐 **Project Page:** https://emrecanacikgoz.github.io/CALM/
-- 💻 **Repository:** https://github.com/oumi-ai/oumi/tree/main/configs/projects/calm
-- 💎 **Dataset:** https://huggingface.co/datasets/uiuc-convai/CALM-IT
 ---
 ## Model Details
-- **Model Name:** CALM-70B
 - **Developed by:** Colloboration of UIUC Conversational AI LAB and Oumi
 - **License:** cc-by-nc-4.0
 - **Architecture:** Fine-tuned **Llama 3.3 70B Instruct**
 - **Parameter Count:** 70B
-- **Training Data:** CALM-IT
 - **Training Type:** Full Fine-tunning (FFT)
 - **Fine-tuning Framework:** [Oumi](https://github.com/oumi-ai/oumi)
 - **Training Hardware:** 8 NVIDIA H100 GPUs
@@ -78,7 +78,7 @@ CALM-70B has been fine-tuned on a **comprehensive multi-tasking** covering dialo
 ---
-## 💡 CALM-IT Dataset
 <img src="table.png" alt="CALM-IT Dataset Statistics" width="800"/>
@@ -93,8 +93,8 @@ CALM-70B has been fine-tuned on a **comprehensive multi-tasking** covering dialo
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
-tokenizer = AutoTokenizer.from_pretrained("uiuc-convai/CALM-70B")
-model = AutoModelForCausalLM.from_pretrained("uiuc-convai/CALM-70B")
 ```
 ### 🛠 Example Oumi Inference
@@ -115,7 +115,7 @@ oumi train -c ./oumi_train.yaml
 ---
-- **Scalability to CALM-405B:** Next iteration will extend capabilities for even larger-scale conversations.
 - **Continuous Open-Source Expansion:** Ongoing release of datasets, model weights, and training artifacts to foster community research.
 ---
@@ -127,10 +127,10 @@ This model is licensed under [Creative Commons NonCommercial (CC BY-NC 4.0)](htt
 ---
 ## Citation
-If you use **CALM-70B** in your research, please cite:
 ```
 @misc{acikgoz2025singlemodelmastermultiturn,
-      title={Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model},
       author={Emre Can Acikgoz and Jeremiah Greer and Akul Datta and Ze Yang and William Zeng and Oussama Elachqar and Emmanouil Koukoumidis and Dilek Hakkani-Tür and Gokhan Tur},
       year={2025},
       eprint={2502.08820},

 - meta-llama/Llama-3.3-70B-Instruct
 ---
+# CoALM-70B: Conversational Agentic Language Model
 [![Made with Oumi](https://badgen.net/badge/Made%20with/Oumi/%23085CFF?icon=https%3A%2F%2Foumi.ai%2Flogo_dark.svg)](https://github.com/oumi-ai/oumi)
 ## Model Description
+**CoALM-70B** is our middle scale **Conversational Agentic Language Model**, designed to integrate **Task-Oriented Dialogue (TOD) capabilities** with **Language Agent (LA) functionalities** at a **larger scale** than its predecessor CoALM-8B. By leveraging **CoALM-IT**, a multi-task dataset interleaving **multi-turn ReAct reasoning** with **complex API usage**, CoALM-70B achieves **state-of-the-art performance** across TOD and function-calling benchmarks.
+CoALM-70B has been fine-tuned on a **comprehensive multi-tasking** covering dialogue state tracking, function calling, and multi-turn reasoning, surpassing even proprietary models like **GPT-4o** on major conversational evaluation benchmarks: **MultiWOZ 2.4 (TOD), BFCL V3 (LA), and API-Bank (LA).**
 ## Model Sources
 <!-- Provide the basic links for the model. -->
 - 📝 **Paper:** https://arxiv.org/abs/2502.08820
+- 🌐 **Project Page:** https://emrecanacikgoz.github.io/CoALM/
+- 💻 **Repository:** https://github.com/oumi-ai/oumi/tree/main/configs/projects/CALM
+- 💎 **Dataset:** https://huggingface.co/datasets/uiuc-convai/CoALM-IT
 ---
 ## Model Details
+- **Model Name:** CoALM-70B
 - **Developed by:** Colloboration of UIUC Conversational AI LAB and Oumi
 - **License:** cc-by-nc-4.0
 - **Architecture:** Fine-tuned **Llama 3.3 70B Instruct**
 - **Parameter Count:** 70B
+- **Training Data:** CoALM-IT
 - **Training Type:** Full Fine-tunning (FFT)
 - **Fine-tuning Framework:** [Oumi](https://github.com/oumi-ai/oumi)
 - **Training Hardware:** 8 NVIDIA H100 GPUs
 ---
+## 💡 CoALM-IT Dataset
 <img src="table.png" alt="CALM-IT Dataset Statistics" width="800"/>
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained("uiuc-convai/CoALM-70B")
+model = AutoModelForCausalLM.from_pretrained("uiuc-convai/CoALM-70B")
 ```
 ### 🛠 Example Oumi Inference
 ---
+- **Scalability to CoALM-405B:** Next iteration will extend capabilities for even larger-scale conversations.
 - **Continuous Open-Source Expansion:** Ongoing release of datasets, model weights, and training artifacts to foster community research.
 ---
 ---
 ## Citation
+If you use **CoALM-70B** in your research, please cite:
 ```
 @misc{acikgoz2025singlemodelmastermultiturn,
+      title={Can a Single Model Master Both Multi-turn Conversations and Tool Use? CoALM: A Unified Conversational Agentic Language Model},
       author={Emre Can Acikgoz and Jeremiah Greer and Akul Datta and Ze Yang and William Zeng and Oussama Elachqar and Emmanouil Koukoumidis and Dilek Hakkani-Tür and Gokhan Tur},
       year={2025},
       eprint={2502.08820},