GaggiX (GaggiX)

upvoted a paper 3 days ago

The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

Paper • 2406.17557 • Published 4 days ago • 66

upvoted an article 4 days ago

Article

Tokenization Is A Dead Weight

By

•

2 days ago

• 4

upvoted a paper 15 days ago

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

Paper • 2406.09406 • Published 16 days ago • 12

upvoted 2 papers 17 days ago

AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

Paper • 2406.07686 • Published 18 days ago • 13

What If We Recaption Billions of Web Images with LLaMA-3?

Paper • 2406.08478 • Published 17 days ago • 38

upvoted a paper 18 days ago

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

Paper • 2406.06525 • Published 19 days ago • 60

upvoted 2 papers 22 days ago

Seed-TTS: A Family of High-Quality Versatile Speech Generation Models

Paper • 2406.02430 • Published 25 days ago • 27

BitsFusion: 1.99 bits Weight Quantization of Diffusion Model

Paper • 2406.04333 • Published 23 days ago • 36

upvoted 2 papers about 1 month ago

Diffusion for World Modeling: Visual Details Matter in Atari

Paper • 2405.12399 • Published May 20 • 25

Chameleon: Mixed-Modal Early-Fusion Foundation Models

Paper • 2405.09818 • Published May 16 • 110

upvoted a paper about 2 months ago

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

Paper • 2405.00332 • Published May 1 • 30

upvoted 3 papers 2 months ago

upvoted 13 papers 3 months ago

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

Paper • 2404.07987 • Published Apr 11 • 46

Adapting LLaMA Decoder to Vision Transformer

Paper • 2404.06773 • Published Apr 10 • 13

On the Scalability of Diffusion-based Text-to-Image Generation

Paper • 2404.02883 • Published Apr 3 • 17

Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

Paper • 2404.02258 • Published Apr 2 • 102

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Paper • 2404.02905 • Published Apr 3 • 61

Getting it Right: Improving Spatial Consistency in Text-to-Image Models

Paper • 2404.01197 • Published Apr 1 • 29

InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds

Paper • 2403.20309 • Published Mar 29 • 16

ViTAR: Vision Transformer with Any Resolution

Paper • 2403.18361 • Published Mar 27 • 48

FlashFace: Human Image Personalization with High-fidelity Identity Preservation

Paper • 2403.17008 • Published Mar 25 • 18

Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition

Paper • 2403.14148 • Published Mar 21 • 17

FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis

Paper • 2403.12963 • Published Mar 19 • 6

LightIt: Illumination Modeling and Control for Diffusion Models

Paper • 2403.10615 • Published Mar 15 • 15

SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion

Paper • 2403.12008 • Published Mar 18 • 18

upvoted 11 papers 4 months ago

Stealing Part of a Production Language Model

Paper • 2403.06634 • Published Mar 11 • 86

Pix2Gif: Motion-Guided Diffusion for GIF Generation

Paper • 2403.04634 • Published Mar 7 • 14

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

Paper • 2403.04132 • Published Mar 7 • 38

StableDrag: Stable Dragging for Point-based Image Editing

Paper • 2403.04437 • Published Mar 7 • 24

Yi: Open Foundation Models by 01.AI

Paper • 2403.04652 • Published Mar 7 • 59

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

Paper • 2403.03100 • Published Mar 5 • 32

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

Paper • 2403.03206 • Published Mar 5 • 47

StarCoder 2 and The Stack v2: The Next Generation

Paper • 2402.19173 • Published Feb 29 • 126

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27 • 573

FiT: Flexible Vision Transformer for Diffusion Model

Paper • 2402.12376 • Published Feb 19 • 48

BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

Paper • 2402.08093 • Published Feb 12 • 52

upvoted 4 papers 5 months ago

World Model on Million-Length Video And Language With RingAttention

Paper • 2402.08268 • Published Feb 13 • 35

LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

Paper • 2402.05054 • Published Feb 7 • 24

BiLLM: Pushing the Limit of Post-Training Quantization for LLMs

Paper • 2402.04291 • Published Feb 6 • 48

Grandmaster-Level Chess Without Search

Paper • 2402.04494 • Published Feb 7 • 65

upvoted a collection 5 months ago

Qwen1.5

Collection

Qwen1.5 is the improved version of Qwen, the large language model series developed by Alibaba Cloud. • 55 items • Updated 23 days ago • 198

upvoted 9 papers 5 months ago

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

Paper • 2402.04252 • Published Feb 6 • 21

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Paper • 2402.03300 • Published Feb 5 • 66

EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks

Paper • 2402.00892 • Published Jan 31 • 9

OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer

Paper • 2401.16658 • Published Jan 30 • 12

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Paper • 2401.15947 • Published Jan 29 • 47

Rethinking Patch Dependence for Masked Autoencoders

Paper • 2401.14391 • Published Jan 25 • 22

Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild

Paper • 2401.13627 • Published Jan 24 • 70

Lumiere: A Space-Time Diffusion Model for Video Generation

Paper • 2401.12945 • Published Jan 23 • 84

Rethinking FID: Towards a Better Evaluation Metric for Image Generation

Paper • 2401.09603 • Published Nov 30, 2023 • 13

upvoted 7 papers 6 months ago

TinyLlama: An Open-Source Small Language Model

Paper • 2401.02385 • Published Jan 4 • 81

Mixtral of Experts

Paper • 2401.04088 • Published Jan 8 • 154

City-on-Web: Real-time Neural Rendering of Large-scale Scenes on the Web

Paper • 2312.16457 • Published Dec 27, 2023 • 13

StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

Paper • 2312.12491 • Published Dec 19, 2023 • 66

StarVector: Generating Scalable Vector Graphics Code from Images

Paper • 2312.11556 • Published Dec 17, 2023 • 26

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 255

VecFusion: Vector Font Generation with Diffusion

Paper • 2312.10540 • Published Dec 16, 2023 • 20

upvoted a paper 7 months ago

LLM360: Towards Fully Transparent Open-Source LLMs

Paper • 2312.06550 • Published Dec 11, 2023 • 53

GaggiX

AI & ML interests

Organizations

GaggiX's activity

Tokenization Is A Dead Weight