Maozhou Ge's picture

Maozhou Ge

Gmc2

·

GHGmc2

AI & ML interests

None yet

Recent Activity

upvoted a paper 27 days ago

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

liked a model about 2 months ago

deepseek-ai/DeepSeek-V2-Lite

upvoted a paper about 2 months ago

GPT-4o System Card

View all activity

Organizations

None yet

Gmc2's activity

upvoted a paper 27 days ago

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

Paper • 2411.14405 • Published Nov 21 • 57

upvoted a paper about 2 months ago

GPT-4o System Card

Paper • 2410.21276 • Published Oct 25 • 82

upvoted 2 papers 2 months ago

Baichuan-Omni Technical Report

Paper • 2410.08565 • Published Oct 11 • 84

Pixtral 12B

Paper • 2410.07073 • Published Oct 9 • 62

upvoted 2 papers 3 months ago

Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning

Paper • 2408.14158 • Published Aug 26 • 3

LLaMA-Omni: Seamless Speech Interaction with Large Language Models

Paper • 2409.06666 • Published Sep 10 • 55

upvoted 2 papers 4 months ago

To Code, or Not To Code? Exploring Impact of Code in Pre-training

Paper • 2408.10914 • Published Aug 20 • 41

Transformer Explainer: Interactive Learning of Text-Generative Models

Paper • 2408.04619 • Published Aug 8 • 155

upvoted 4 papers 5 months ago

The Llama 3 Herd of Models

Paper • 2407.21783 • Published Jul 31 • 109

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

Paper • 2407.13623 • Published Jul 18 • 53

Scaling Diffusion Transformers to 16 Billion Parameters

Paper • 2407.11633 • Published Jul 16 • 25

Qwen2 Technical Report

Paper • 2407.10671 • Published Jul 15 • 160

upvoted 2 papers 6 months ago

LoongTrain: Efficient Training of Long-Sequence LLMs with Head-Context Parallelism

Paper • 2406.18485 • Published Jun 26 • 2

MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression

Paper • 2406.14909 • Published Jun 21 • 14

upvoted a collection 6 months ago

LLM Compiler

Meta LLM Compiler is a state-of-the-art LLM that builds upon Code Llama with improved performance for code optimization and compiler reasoning. • 4 items • Updated Jun 27 • 146

upvoted 5 papers 6 months ago

Adam-mini: Use Fewer Learning Rates To Gain More

Paper • 2406.16793 • Published Jun 24 • 67

A Closer Look into Mixture-of-Experts in Large Language Models

Paper • 2406.18219 • Published Jun 26 • 15

Unlocking Continual Learning Abilities in Language Models

Paper • 2406.17245 • Published Jun 25 • 28

Long Context Transfer from Language to Vision

Paper • 2406.16852 • Published Jun 24 • 32

Scaling Laws for Linear Complexity Language Models

Paper • 2406.16690 • Published Jun 24 • 22