File size: 8,069 Bytes
8598b7e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
# サンプル

v1.4デモは[こちら](https://speech.fish.audio/samples/)に更新されています

v1.2のサンプルは[Bilibili](https://www.bilibili.com/video/BV1wz421B71D/)で利用可能です。

以下のサンプルはv1.1モデルからのものです。

## 中国語の文1
```
人間灯火倒映湖中,她的渴望让静水泛起涟漪。若代价只是孤独,那就让这份愿望肆意流淌。
流入她所注视的世间,也流入她如湖水般澄澈的目光。
```

<table>
    <thead>
    <tr>
        <th>話者</th>
        <th>入力音声</th>
        <th>合成音声</th>
    </tr>
    </thead>
    <tbody>
    <tr>
        <td>ナヒーダ (原神)</td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/zh/0_input.wav" /></td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/zh/0_output.wav" /></td>
    </tr>
    <tr>
        <td>鍾離 (原神)</td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/zh/1_input.wav" /></td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/zh/1_output.wav" /></td>
    </tr>
    <tr>
        <td>フリナ (原神)</td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/zh/2_input.wav" /></td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/zh/2_output.wav" /></td>
    </tr>
    <tr>
        <td>ランダム話者1</td>
        <td> - </td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/zh/4_output.wav" /></td>
    </tr>
    <tr>
        <td>ランダム話者2</td>
        <td> - </td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/zh/5_output.wav" /></td>
    </tr>
    </tbody>
</table>


## 中国語の文2
```
你们这个是什么群啊,你们这是害人不浅啊你们这个群!谁是群主,出来!真的太过分了。你们搞这个群干什么?
我儿子每一科的成绩都不过那个平均分呐,他现在初二,你叫我儿子怎么办啊?他现在还不到高中啊?
你们害死我儿子了!快点出来你这个群主!再这样我去报警了啊!我跟你们说你们这一帮人啊,一天到晚啊,
搞这些什么游戏啊,动漫啊,会害死你们的,你们没有前途我跟你说。你们这九百多个人,好好学习不好吗?
一天到晚在上网。有什么意思啊?麻烦你重视一下你们的生活的目标啊?有一点学习目标行不行?一天到晚上网是不是人啊?
```

<table>
    <thead>
    <tr>
        <th>話者</th>
        <th>入力音声</th>
        <th>合成音声</th>
    </tr>
    </thead>
    <tbody>
    <tr>
        <td>ナヒーダ (原神)</td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/zh/0_input.wav" /></td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/zh/6_output.wav" /></td>
    </tr>
    <tr>
        <td>ランダム話者</td>
        <td> - </td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/zh/7_output.wav" /></td>
    </tr>
    </tbody>
</table>


## 中国語の文3
```
大家好,我是 Fish Audio 开发的开源文本转语音模型。经过十五万小时的数据训练,
我已经能够熟练掌握中文、日语和英语,我的语言处理能力接近人类水平,声音表现形式丰富多变。
作为一个仅有亿级参数的模型,我相信社区成员能够在个人设备上轻松运行和微调,让我成为您的私人语音助手。
```


<table>
    <thead>
    <tr>
        <th>話者</th>
        <th>入力音声</th>
        <th>合成音声</th>
    </tr>
    </thead>
    <tbody>
    <tr>
        <td>ランダム話者</td>
        <td> - </td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/zh/8_output.wav" /></td>
    </tr>
    </tbody>
</table>

## 英語の文1

```
In the realm of advanced technology, the evolution of artificial intelligence stands as a 
monumental achievement. This dynamic field, constantly pushing the boundaries of what 
machines can do, has seen rapid growth and innovation. From deciphering complex data 
patterns to driving cars autonomously, AI's applications are vast and diverse.
```

<table>
    <thead>
    <tr>
        <th>話者</th>
        <th>入力音声</th>
        <th>合成音声</th>
    </tr>
    </thead>
    <tbody>
    <tr>
        <td>ランダム話者1</td>
        <td> - </td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/en/0_output.wav" /></td>
    </tr>
    <tr>
        <td>ランダム話者2</td>
        <td> - </td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/en/1_output.wav" /></td>
    </tr>
    </tbody>
</table>

## 英語の文2
```
Hello everyone, I am an open-source text-to-speech model developed by 
Fish Audio. After training with 150,000 hours of data, I have become proficient 
in Chinese, Japanese, and English, and my language processing abilities 
are close to human level. My voice is capable of a wide range of expressions. 
As a model with only hundreds of millions of parameters, I believe community 
members can easily run and fine-tune me on their personal devices, allowing 
me to serve as your personal voice assistant.
```

<table>
    <thead>
    <tr>
        <th>話者</th>
        <th>入力音声</th>
        <th>合成音声</th>
    </tr>
    </thead>
    <tbody>
    <tr>
        <td>ランダム話者</td>
        <td> - </td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/en/2_output.wav" /></td>
    </tr>
    </tbody>
</table>

## 日本語の文1

```
先進技術の領域において、人工知能の進化は画期的な成果として立っています。常に機械ができることの限界を
押し広げているこのダイナミックな分野は、急速な成長と革新を見せています。複雑なデータパターンの解読か
ら自動運転車の操縦まで、AIの応用は広範囲に及びます。
```


<table>
    <thead>
    <tr>
        <th>話者</th>
        <th>入力音声</th>
        <th>合成音声</th>
    </tr>
    </thead>
    <tbody>
    <tr>
        <td>ランダム話者1</td>
        <td> - </td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/ja/0_output.wav" /></td>
    </tr>
    <tr>
        <td>ランダム話者2</td>
        <td> - </td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/ja/1_output.wav" /></td>
    </tr>
    </tbody>
</table>

## 日本語の文2
```
皆さん、こんにちは。私はフィッシュオーディオによって開発されたオープンソースのテ
キストから音声への変換モデルです。15万時間のデータトレーニングを経て、
中国語、日本語、英語を熟知しており、言語処理能力は人間に近いレベルです。
声の表現も多彩で豊かです。数億のパラメータを持つこのモデルは、コミュニティ
のメンバーが個人のデバイスで簡単に実行し、微調整することができると
信じています。これにより、私を個人の音声アシスタントとして活用できます。
```

<table>
    <thead>
    <tr>
        <th>話者</th>
        <th>入力音声</th>
        <th>合成音声</th>
    </tr>
    </thead>
    <tbody>
    <tr>
        <td>ランダム話者</td>
        <td> - </td>
        <td><audio controls preload="auto" src="https://demo-r2.speech.fish.audio/v1.1-sft-large/ja/2_output.wav" /></td>
    </tr>
    </tbody>
</table>