Dmitry C's picture

2 32

Dmitry C

literate-goggles

·

AI & ML interests

None yet

Organizations

None yet

literate-goggles's activity

upvoted a paper 17 days ago

TextGrad: Automatic "Differentiation" via Text

Paper • 2406.07496 • Published 18 days ago • 25

upvoted a paper 22 days ago

Open-Endedness is Essential for Artificial Superhuman Intelligence

Paper • 2406.04268 • Published 23 days ago • 11

upvoted a paper 24 days ago

To Believe or Not to Believe Your LLM

Paper • 2406.02543 • Published 25 days ago • 29

upvoted a paper 26 days ago

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Paper • 2405.21060 • Published 29 days ago • 60

upvoted 2 papers 29 days ago

GPT Understands, Too

Paper • 2103.10385 • Published Mar 18, 2021 • 6

An Introduction to Vision-Language Modeling

Paper • 2405.17247 • Published May 27 • 77

upvoted 6 papers about 1 month ago

2BP: 2-Stage Backpropagation

Paper • 2405.18047 • Published May 28 • 21

Reducing Transformer Key-Value Cache Size with Cross-Layer Attention

Paper • 2405.12981 • Published May 21 • 26

Your Transformer is Secretly Linear

Paper • 2405.12250 • Published May 19 • 143

Not All Language Model Features Are Linear

Paper • 2405.14860 • Published May 23 • 37

MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

Paper • 2405.12130 • Published May 20 • 44

Chameleon: Mixed-Modal Early-Fusion Foundation Models

Paper • 2405.09818 • Published May 16 • 110

upvoted 9 papers about 2 months ago

RLHF Workflow: From Reward Modeling to Online RLHF

Paper • 2405.07863 • Published May 13 • 62

Better & Faster Large Language Models via Multi-token Prediction

Paper • 2404.19737 • Published Apr 30 • 65

ReFT: Representation Finetuning for Language Models

Paper • 2404.03592 • Published Apr 4 • 74

Gecko: Versatile Text Embeddings Distilled from Large Language Models

Paper • 2403.20327 • Published Mar 29 • 47

Multi-Head Mixture-of-Experts

Paper • 2404.15045 • Published Apr 23 • 55

OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

Paper • 2404.14619 • Published Apr 22 • 124

Layer Skip: Enabling Early Exit Inference and Self-Speculative Decoding

Paper • 2404.16710 • Published Apr 25 • 56

KAN: Kolmogorov-Arnold Networks

Paper • 2404.19756 • Published Apr 30 • 101

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

Paper • 2405.01535 • Published May 2 • 106

upvoted 7 papers 2 months ago

SnapKV: LLM Knows What You are Looking for Before Generation

Paper • 2404.14469 • Published Apr 22 • 23

Jamba: A Hybrid Transformer-Mamba Language Model

Paper • 2403.19887 • Published Mar 28 • 99

How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study

Paper • 2404.14047 • Published Apr 22 • 38

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

Paper • 2404.13208 • Published Apr 19 • 38

Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

Paper • 2404.12253 • Published Apr 18 • 51

Dynamic Typography: Bringing Words to Life

Paper • 2404.11614 • Published Apr 17 • 40

Compression Represents Intelligence Linearly

Paper • 2404.09937 • Published Apr 15 • 27

upvoted 4 papers 3 months ago

AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent

Paper • 2404.03648 • Published Apr 4 • 22

The Unreasonable Ineffectiveness of the Deeper Layers

Paper • 2403.17887 • Published Mar 26 • 75

Can large language models explore in-context?

Paper • 2403.15371 • Published Mar 22 • 30

Transformers are Multi-State RNNs

Paper • 2401.06104 • Published Jan 11 • 34