Rishabh Bhardwaj's picture

Rishabh Bhardwaj

RishabhBhardwaj

·

Bhardwaj-Rishabh

AI & ML interests

None yet

Recent Activity

authored a paper about 2 months ago

MSTS: A Multimodal Safety Test Suite for Vision-Language Models

liked a Space 3 months ago

chiayewken/multimodal-longdoc-qwen2-vl

upvoted a paper 4 months ago

M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework

View all activity

Organizations

RishabhBhardwaj's activity

upvoted a paper 4 months ago

M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework

Paper • 2411.06176 • Published Nov 9, 2024 • 45

upvoted a paper 6 months ago

Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse

Paper • 2409.11242 • Published Sep 17, 2024 • 7

upvoted 2 papers 7 months ago

Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique

Paper • 2408.10701 • Published Aug 20, 2024 • 12

WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language Models

Paper • 2408.03837 • Published Aug 7, 2024 • 18

upvoted 3 papers 9 months ago

Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment

Paper • 2308.09662 • Published Aug 18, 2023 • 3

DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling

Paper • 2406.11617 • Published Jun 17, 2024 • 8

Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming

Paper • 2406.11654 • Published Jun 17, 2024 • 6

upvoted a collection 9 months ago

LLM Safety

Our research on LLM safety: red-teaming, value alignment, realignment. • 7 items • Updated Aug 8, 2024 • 1

upvoted 2 papers 9 months ago

Language Model Unalignment: Parametric Red-Teaming to Expose Hidden Harms and Biases

Paper • 2310.14303 • Published Oct 22, 2023 • 1

Language Models are Homer Simpson! Safety Re-Alignment of Fine-tuned Language Models through Task Arithmetic

Paper • 2402.11746 • Published Feb 19, 2024 • 2