Eugene Oskin's picture

33 47

Eugene Oskin

eoskin

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 2 days ago

RoFormer: Enhanced Transformer with Rotary Position Embedding

liked a model 2 days ago

budecosystem/boomer-634m

updated a collection 2 days ago

impactful-papers

View all activity

Organizations

None yet

eoskin's activity

upvoted 2 papers 2 days ago

RoFormer: Enhanced Transformer with Rotary Position Embedding

Paper • 2104.09864 • Published Apr 20, 2021 • 12

Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

Paper • 2503.01933 • Published 7 days ago • 10

upvoted 2 papers 15 days ago

Phantom: Subject-consistent video generation via cross-modal alignment

Paper • 2502.11079 • Published 22 days ago • 52

PAFT: Prompt-Agnostic Fine-Tuning

Paper • 2502.12859 • Published 20 days ago • 15

upvoted a paper 16 days ago

Have We Designed Generalizable Structural Knowledge Promptings? Systematic Evaluation and Rethinking

Paper • 2501.00244 • Published Dec 31, 2024 • 1

upvoted a paper 17 days ago

Training language models to follow instructions with human feedback

Paper • 2203.02155 • Published Mar 4, 2022 • 17

upvoted 3 papers 18 days ago

Retrofitting Word Vectors to Semantic Lexicons

Paper • 1411.4166 • Published Nov 15, 2014 • 1

StarCoder: may the source be with you!

Paper • 2305.06161 • Published May 9, 2023 • 31

SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

Paper • 2502.02737 • Published Feb 4 • 199

upvoted 2 papers 19 days ago

ReLearn: Unlearning via Learning for Large Language Models

Paper • 2502.11190 • Published 22 days ago • 29

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

Paper • 2310.06770 • Published Oct 10, 2023 • 5

upvoted 5 papers 20 days ago

ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models

Paper • 2502.09696 • Published 24 days ago • 38

The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

Paper • 2502.08235 • Published 26 days ago • 54

TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

Paper • 2502.06608 • Published 28 days ago • 32

Large Language Diffusion Models

Paper • 2502.09992 • Published 24 days ago • 99

Competitive Programming with Large Reasoning Models

Paper • 2502.06807 • Published Feb 3 • 67

upvoted an article 20 days ago

Article

Mixture of Experts Explained

Dec 11, 2023

• 436

upvoted 3 papers 20 days ago

ToMoE: Converting Dense Large Language Models to Mixture-of-Experts through Dynamic Structural Pruning

Paper • 2501.15316 • Published Jan 25 • 1

DarwinLM: Evolutionary Structured Pruning of Large Language Models

Paper • 2502.07780 • Published 26 days ago • 17

Shortened LLaMA: A Simple Depth Pruning for Large Language Models

Paper • 2402.02834 • Published Feb 5, 2024 • 16