TrustSafeAI

community

https://sites.google.com/site/pinyuchenpage/home

pinyuchenTW

pinyuchen

Activity Feed Request to join this org

AI & ML interests

Research Demos and Tools for Trustworthy and Safe AI Development and Deployment

Recent Activity

zaitang updated a Space 3 days ago

TrustSafeAI/Retention_Score

pinyuchen updated a Space 5 days ago

TrustSafeAI/README

gregH updated a Space 12 days ago

TrustSafeAI/Token-Highlighter

View all activity

Organization Card

Community About org cards

Welcome to TrustSafeAI! We are a reseach group focusing on evaluating and improving AI safety.
If you are interested in joining us, please reach out to Pin-Yu Chen
Team Members and Projects:

Member	Project	Webpage
Xiaomeng Hu	RADAR (NeurIPS'23), Gradient Cuff (NeurIPS'24), Token Hilighter (AAAI'25)	webpage
Lei Hsiung	NeuralFuse (NeurIPS'24), NCTV (TMLR; AAAI'23), CARBEN (CVPR'23; IJCAI'22)	webpage
Zhi-Yi Chin	P4D (ICML'24)	webpage
Barry Xiong	DPP	-
Zaitang Li	GREAT Score (NeurIPS'24), Retention Score (AAAI'25)	-
Yung-Chen Tang	NCTV (TMLR; AAAI'23) , LLM-Physical-Safety	webpage
Zhiyuan He	BEYOND (ICML'24)	-
Yujun Zhou	LLM LabSafety	-
Xiangyu Qi	LLM Finetuning Safety (ICLR'24)	webpage
Kuo-Han (Johnson) Hung	Attention Tracker (NAACL'25)	webpage
Xiang Li		webpage
Pin-Yu Chen	All (research supervisor)	webpage

Collections 4

spaces 10

Retention Score

Evaluate jailbreak risks for Vision-Language Models

Token Highlighter

Demonstration of Token Highlighter: A Jailbreak Defense

GradientCuff-Jailbreak-Defense

Demonstration of Gradient Cuff: A Jailbreak Defense

Attention Tracker Prompt Injection Detector

Attention Tracker: Prompt Injection Detector

LLM Physical Safety

LLM benchmark for Physical Safety

NeuralFuse

Protect Model from Suffering Low-voltage-induced Bit Errors

models 1

TrustSafeAI/RADAR-Vicuna-7B

Text Classification • Updated Nov 7, 2023 • 75.1k • • 7

datasets 1

TrustSafeAI/llm_physical_safety_benchmark

Viewer • Updated Nov 4, 2024 • 408 • 55