Zhisheng Zheng

zhisheng01

https://zhishengzheng.com/

zhisheng147

AI & ML interests

LLM, Speech and Audio Processing

Recent Activity

liked a dataset 3 days ago

baijs/AudioSetCaps

liked a model 6 days ago

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

liked a model 6 days ago

deepseek-ai/DeepSeek-R1

View all activity

Organizations

None yet

zhisheng01's activity

liked a dataset 3 days ago

baijs/AudioSetCaps

Preview • Updated Nov 27, 2024 • 160 • 18

liked 2 models 6 days ago

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

Text Generation • Updated 8 days ago • 881k • • 837

deepseek-ai/DeepSeek-R1

Text Generation • Updated 8 days ago • 3.98M • • 9.12k

upvoted a paper 7 days ago

AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

Paper • 2502.05176 • Published 9 days ago • 28

upvoted a paper 10 days ago

Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

Paper • 2502.04128 • Published 10 days ago • 22

liked a dataset 11 days ago

CAiRE/ASCEND

Viewer • Updated Jul 16, 2024 • 12.3k • 591 • 32

upvoted an article 11 days ago

Article

Recipe: Preparing Multilingual Speech Datasets for TTS Training

and 1 other •

Nov 4, 2024

• 18

upvoted a paper about 1 month ago

MinMo: A Multimodal Large Language Model for Seamless Voice Interaction

Paper • 2501.06282 • Published Jan 10 • 43

liked a model about 1 month ago

deepseek-ai/DeepSeek-V3

Text Generation • Updated 24 days ago • 1.75M • • 3.45k

liked 2 models 3 months ago

nyrahealth/CrisperWhisper

Automatic Speech Recognition • Updated Dec 19, 2024 • 26.6k • • 230

kyutai/mimi

Feature Extraction • Updated Sep 18, 2024 • 315k • 106

liked a dataset 4 months ago

walkerhyf/NCSSD

Updated Nov 12, 2024 • 70 • 20

upvoted a paper 4 months ago

Movie Gen: A Cast of Media Foundation Models

Paper • 2410.13720 • Published Oct 17, 2024 • 93

liked a model 4 months ago

SWivid/F5-TTS

Text-to-Speech • Updated Nov 8, 2024 • 1.12M • 902

updated a dataset 4 months ago

zhisheng01/SpatialAudio

Preview • Updated Oct 12, 2024 • 84 • 3

upvoted 3 papers 4 months ago

F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching

Paper • 2410.06885 • Published Oct 9, 2024 • 43

VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide

Paper • 2410.04364 • Published Oct 6, 2024 • 28

MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion

Paper • 2410.03825 • Published Oct 4, 2024 • 19

liked a dataset 4 months ago

parler-tts/mls-eng-10k-tags_tagged_10k_generated

Viewer • Updated Apr 10, 2024 • 2.43M • 158 • 17

upvoted a paper 5 months ago

MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages

Paper • 2410.01036 • Published Oct 1, 2024 • 15