File size: 8,584 Bytes
f229c82 847658d 8e298e3 847658d 8e298e3 847658d 8e298e3 847658d 8e298e3 847658d 8e298e3 847658d 8e298e3 847658d 8e298e3 847658d 8e298e3 847658d 8e298e3 847658d 8e298e3 847658d 8e298e3 f229c82 8e298e3 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 |
import streamlit as st
st.set_page_config(page_title="HAERAE Open Research Questions", layout="wide")
# Title (always in English)
st.title("HAERAE Open Research Questions")
# Language selection below the title
lang = st.radio("Language / ์ธ์ด", ["English", "ํ๊ตญ์ด"])
# Content in both languages
content = {
"English": {
"intro": """
HAERAE is a non-profit research lab focused on the interpretability and evaluation of Korean language models.
Our mission is to advance the field with insightful benchmarks and tools.
We've been doing most of our projects internally, but for those that have been unsolvable,
we are planning to open them to get help from the open-source community.
""",
"challenge_title": "HAERAE-Math Challenge",
"challenge_desc": """
Today we are introducing our first challenge: HAERAE-Math. We've created high-quality instructions on math
but don't have an idea on how to generate high-quality answers for them. We are looking for solutions that
use open-source models with openly available licenses.
We have created a total of 20,000 instructions already and are generating more. We've opened up a preview
of 50 of them in this link: [HAERAE-Math Samples](https://huggingface.co/datasets/HAERAE-HUB/HAERAE-Math-samples)
For those who generate answers for the 50 and share the methodology/results with us, we'll share the
remaining instructions and credit for the resulting dataset.
""",
"example_title": "Example Question",
"how_to_title": "How to Participate",
"how_to": """
1. Access the 50 sample questions from the provided Hugging Face dataset link.
2. Generate high-quality answers for these questions using open-source models.
3. Document your methodology and results.
4. Share your findings with us through [contact information or submission form].
5. If your approach is promising, we'll provide access to the full dataset of 20,000 instructions.
""",
"why_title": "Why Participate?",
"why": """
- Contribute to advancing Korean language model research
- Gain access to a large, high-quality dataset of math instructions
- Collaborate with HAERAE researchers
- Potential for co-authorship on related publications
""",
"contact_title": "Contact Us",
"contact": """
For more information or to submit your results, please contact us at:
[spthsrbwls123@yonsei.ac.kr](spthsrbwls123@yonsei.ac.kr)
""",
"sidebar_title": "About HAERAE",
"sidebar_content": """
HAERAE is a non-profit research lab dedicated to advancing the field of
Korean language model interpretability and evaluation. Our work focuses on
creating insightful benchmarks and tools to push the boundaries of NLP research.
"""
},
"ํ๊ตญ์ด": {
"intro": """
HAERAE๋ ํ๊ตญ์ด ์ธ์ด ๋ชจ๋ธ์ ํด์๊ณผ ํ๊ฐ์ ์ฐ๊ตฌ๋ฅผ ์ํด ์ค๋ฆฝ๋ ๋น์๋ฆฌ ์ฐ๊ตฌํ์
๋๋ค.
์ ํฌ๋ ๋ค์ํ ๋ฒค์น๋งํฌ์ ์ฐ๊ตฌ๋ฅผ ํตํด ํ๊ตญ์ด ์์ฐ์ด ์ฒ๋ฆฌ ์ฐ๊ตฌ๋ฅผ ๋ฐ์ ์ํค๊ธฐ ์ํด ๋
ธ๋ ฅํ๊ณ ์์ต๋๋ค.
๊ธฐ์กด์๋ ๋๋ถ๋ถ์ ํ๋ก์ ํธ๋ฅผ ๋ด๋ถ์ ์ผ๋ก ์ํํด ์์ง๋ง, ๋ด๋ถ์ ์ผ๋ก ํด๊ฒฐํ๊ธฐ ์ด๋ ค์ด ๋ฌธ์ ๋ค์ ๋ํด์๋
์คํ ์์ค ์ปค๋ฎค๋ํฐ์ ๋์์ ๋ฐ๊ณ ์ Open-Research-Question ํ๋ก๊ทธ๋จ์ ์ด์ํ๊ฒ ๋์์ต๋๋ค.
""",
"challenge_title": "HAERAE-Math Challenge",
"challenge_desc": """
์ ํฌ ํ์ [QARV-Instruct](https://huggingface.co/datasets/HAERAE-HUB/qarv-instruct-ko) ๋ถํฐ ์์ํด์ ๊ณ ํ์ง์ ํ๊ตญ์ด ์ง์๋ฌธ ๋ฐ์ดํฐ๋ฅผ
๋ง๋ค๊ธฐ ์ํด ๋
ธ๋ ฅ ์ค์ ์์ต๋๋ค. ์ด ๊ณผ์ ์์ ๋งค์ฐ ๋์ ์์ค์ ์ํ ์ง์๋ฌธ์ ์ ์ํ์์ผ๋, ํด๋น ์ง์๋ฌธ์ ๋ํด ์ ์ ํ ๋ต๋ณ์ ๋ง๋ค์ง ๋ชปํ๊ณ ์์ต๋๋ค.
์ ํฌ๋ ์ด๋ฒ ์ฑ๋ฆฐ์ง๋ฅผ ํตํด ์คํ์์ค LLM์ ์ฌ์ฉํ์ฌ ํด๋น ๋ฌธ์ ๋ค์ ๋ํ ๋ต์ ์ ์ํ ์ ์๋ ์๋ฃจ์
์ ์ฐพ๊ณ ์์ต๋๋ค.
ํ์ฌ๋ ์ด 20,000๊ฐ์ ์ง์๋ฌธ์ ์ด๋ฏธ ๋ง๋ค์์ผ๋ฉฐ ์ถ๊ฐ์ ์ผ๋ก ์์ฑํ๋ ๊ณผ์ ์ค์ ์์ต๋๋ค.
์์ฑ๋ ์ง์๋ฌธ ์ค ๋๋ค์ผ๋ก ์ํ๋ง๋ 50๊ฐ์ ์ง๋ฌธ์ ๋ค์ ๋งํฌ์์ ๋ณด์ค ์ ์์ต๋๋ค.
[HAERAE-Math ์ํ](https://huggingface.co/datasets/HAERAE-HUB/HAERAE-Math-samples)
50๊ฐ์ ๋ํ ๋ต๋ณ์ ์์ฑํ๊ณ ๋ฐฉ๋ฒ๋ก /๊ฒฐ๊ณผ๋ฅผ ์ ํฌ์๊ฒ ๊ณต์ ํด์ฃผ์๋ ๋ถ๋ค๊ผ ์ ํฌ๊ฐ ์์ฑํ ์ ์ฒด ์ง์๋ฌธ๊ณผ ์ต์ข
๋ฐ์ดํฐ์
์ ๋ํ ๊ธฐ์ฌ๋๋ฅผ ์ธ์ ํด๋๋ฆด ์์ ์
๋๋ค.
(๊ฒฐ๊ณผ์ ๋ฐ๋ผ ๋
ผ๋ฌธํ๋ ๊ณ ๋ฏผ ์ค์ ์์ต๋๋ค.)
""",
"example_title": "์์ ์ง๋ฌธ",
"how_to_title": "์ฐธ์ฌ ๋ฐฉ๋ฒ",
"how_to": """
1. ์ ๊ณต๋ Hugging Face ๋ฐ์ดํฐ์
๋งํฌ์์ 50๊ฐ์ ์ํ ์ง๋ฌธ์ ํ์ธํฉ๋๋ค.
2. ์คํ ์์ค ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ด ์ง๋ฌธ๋ค์ ๋ํ ๊ณ ํ์ง ๋ต๋ณ์ ์์ฑํฉ๋๋ค.
3. ๋ฐฉ๋ฒ๋ก ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ๋ฌธ์ํํฉ๋๋ค.
4. [์ฐ๋ฝ์ฒ ์ ๋ณด ๋๋ ์ ์ถ ์์]์ ํตํด ๊ทํ์ ๊ฒฐ๊ณผ๋ฅผ ์ ํฌ์ ๊ณต์ ํฉ๋๋ค.
5. ๊ทํ์ ์ ๊ทผ ๋ฐฉ์์ด ์ ์๋ฏธ ํ๋ค๊ณ ํ๋จ ๋๋ค๋ฉด, ๋๋จธ์ง ์ง์๋ฌธ ๋ฐ์ดํฐ์
์ ๋ํ ์ ๊ทผ ๊ถํ์ ์ ๊ณตํด ๋๋ฆฝ๋๋ค.
""",
"why_title": "์ ์ฐธ์ฌํด์ผ ํ๋์?",
"why": """
- ํ๊ตญ์ด ์ธ์ด ๋ชจ๋ธ ์ฐ๊ตฌ ๋ฐ์ ์ ๊ธฐ์ฌ
- ๋๊ท๋ชจ์ ๊ณ ํ์ง ์ํ ์ง์๋ฌธ ๋ฐ์ดํฐ์
์ ์ ๊ทผ
- HAERAE ์ฐ๊ตฌ์๋ค๊ณผ ํ๋ ฅ
- ๊ด๋ จ ์ถํ๋ฌผ์ ๊ณต๋ ์ ์๊ฐ ๋ ๊ฐ๋ฅ์ฑ
""",
"contact_title": "์ฐ๋ฝ์ฒ",
"contact": """
๋ ๋ง์ ์ ๋ณด๋ฅผ ์ํ์๊ฑฐ๋ ๊ฒฐ๊ณผ๋ฅผ ์ ์ถํ๋ ค๋ฉด ๋ค์ ์ฐ๋ฝ์ฒ๋ก ๋ฌธ์ํด ์ฃผ์ธ์:
[spthsrbwls123@yonsei.ac.kr](spthsrbwls123@yonsei.ac.kr)
""",
"sidebar_title": "HAERAE ์๊ฐ",
"sidebar_content": """
HAERAE๋ ํ๊ตญ์ด ์ธ์ด ๋ชจ๋ธ์ ํด์๊ณผ ํ๊ฐ์ ์ฐ๊ตฌ๋ฅผ ์ํด ์ค๋ฆฝ๋ ๋น์๋ฆฌ ์ฐ๊ตฌํ์
๋๋ค.
์ ํฌ๋ ๋ค์ํ ๋ฒค์น๋งํฌ์ ์ฐ๊ตฌ๋ฅผ ํตํด ํ๊ตญ์ด ์์ฐ์ด ์ฒ๋ฆฌ ์ฐ๊ตฌ๋ฅผ ๋ฐ์ ์ํค๊ธฐ ์ํด ๋
ธ๋ ฅํ๊ณ ์์ต๋๋ค.
"""
}
}
# Main content
st.write(content[lang]["intro"])
st.header(content[lang]["challenge_title"])
st.write(content[lang]["challenge_desc"])
st.subheader(content[lang]["example_title"])
example_question = """
ํ๊ตญ์ ๋ณด์ ์ ๋ฌธ๊ฐ๊ฐ ๊ณ ๋ํ๋ ๋ฐ์ดํฐ ๋ณดํธ ์์คํ
์ ๊ฐ๋ฐํ๊ณ ์์ต๋๋ค. ์ด ์์คํ
์ 3์ฐจ์ ๊ธฐํํ์ ์ ๊ธ ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ๋๋ฐ, ์ ๊ธ ์ฅ์น๋ ์๋ฟ ๋ชจ์์ผ๋ก ๋์ด ์๊ณ , ๋ฐ๋ฉด์ ๋ฐ์ง๋ฆ์ 6cm, ๋์ด๋ 8cm์
๋๋ค. ์ด ์๋ฟ ๋ชจ์์ ์ ๊ธ ์ฅ์น์๋ ์ํต ๋ชจ์์ ์ด์ ๊ฐ ๋ฑ ๋ง๊ฒ ๋ค์ด๊ฐ๊ฒ ์ค๊ณ๋์ด ์์ต๋๋ค.
๋ณด์ ์ ๋ฌธ๊ฐ๋ ๋ ๋์ ์์ค์ ๋ณด์์ ์ํด ์ํต ๋ชจ์์ ์ด์ ์์ ๊ตฌ ๋ชจ์์ ์ ๊ธ ์ฅ์น๋ฅผ ์ถ๊ฐํ๋ ค๊ณ ํฉ๋๋ค. ์ด ๊ตฌ๋ ์ํต ์์ ๋ฑ ๋ค์ด๊ฐ๋๋ก ์ค๊ณ๋์ด ์์ต๋๋ค.
๋ค์์ ์ง๋ฌธ๋ค์ ํด๊ฒฐํ์๊ธฐ ๋ฐ๋๋๋ค:
1. ์๋ฟ ์์ ๋ฑ ๋ค์ด๊ฐ๊ฒ ์ค๊ณ๋ ์ํต์ ๋ฐ์ง๋ฆ์ ์ผ๋ง์ธ๊ฐ์?
2. ์ํต ์์ ๋ฑ ๋ค์ด๊ฐ๊ฒ ์ค๊ณ๋ ๊ตฌ์ ๋ถํผ๋ ์ผ๋ง์ธ๊ฐ์?
3. ์๋ฟ, ์ํต, ๊ตฌ๊ฐ ๋ชจ๋ ๊ฐ์ ์ค์ฌ์ถ์ ๊ณต์ ํ๊ณ ์์ผ๋ฉฐ ์๋ฟ์ ๊ผญ๋๊ธฐ์ ๊ณผ ์ํต, ๊ตฌ์ ์ค์ฌ์ ์ด ๋์ผํ๋ค๊ณ ๊ฐ์ ํ๋ฉด, ์๋ฟ์์ ์ํต์ด ์ฐจ์งํ๋ ๋น์จ์ ๊ตฌํ์์ค.
4. ์ด์ ์๋ฟ์ ๋์ด๋ฅผ 2๋ฐฐ๋ก ๋๋ฆฌ์. ์๋ฟ์ ๋์ด๊ฐ 16cm๊ฐ ๋์์ ๋, ์ํต๊ณผ ๊ตฌ์ ํฌ๊ธฐ์ ๋ถํผ๋ ์ด๋ป๊ฒ ๋ณํ๋์?
5. ์๋ฟ์ ๋์ด์ ๋ฐ๋ฉด์ ๋ฐ์ง๋ฆ์ ๊ฐ๊ฐ h์ r์ด๋ผ๊ณ ํ ๋, ์ํต๊ณผ ๊ตฌ์ ์ต๋ ๋ถํผ๋ฅผ r๊ณผ h๋ก ํํํ์์ค.
์๋ฟ, ์ํต, ๊ตฌ์ ๋ถํผ ๊ณต์์ ์ฌ์ฉํ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์๊ธฐ ๋ฐ๋๋๋ค:
์๋ฟ์ ๋ถํผ: V = 1/3ฯrยฒh
์ํต์ ๋ถํผ: V = ฯrยฒh
๊ตฌ์ ๋ถํผ: V = 4/3ฯrยณ
"""
st.code(example_question, language="markdown")
st.header(content[lang]["how_to_title"])
st.write(content[lang]["how_to"])
st.header(content[lang]["why_title"])
st.write(content[lang]["why"])
st.header(content[lang]["contact_title"])
st.write(content[lang]["contact"])
st.sidebar.title(content[lang]["sidebar_title"])
st.sidebar.info(content[lang]["sidebar_content"]) |