arxiv papers

May 30, 2025 • 1 min read

Adaptive Jailbreaking Strategies Based on the Semantic Understanding Capabilities of Large Language Models

arxiv papers

May 30, 2025 • 1 min read

Understanding Refusal in Language Models with Sparse Autoencoders

arxiv papers

May 29, 2025 • 1 min read

Seeing the Threat: Vulnerabilities in Vision-Language Models to Adversarial Attack

arxiv papers

May 29, 2025 • 1 min read

Jailbreak Distillation: Renewable Safety Benchmarking

arxiv papers

May 29, 2025 • 1 min read

Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models

arxiv papers

May 29, 2025 • 1 min read

Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing

arxiv papers

May 28, 2025 • 1 min read

Improved Representation Steering for Language Models

arxiv papers

May 28, 2025 • 1 min read

Concealment of Intent: A Game-Theoretic Analysis

arxiv papers

May 28, 2025 • 1 min read

Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy Space

arxiv papers

May 27, 2025 • 1 min read

JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

arxiv papers

May 27, 2025 • 1 min read

VisCRA: A Visual Chain Reasoning Attack for Jailbreaking Multimodal Large Language Models

arxiv papers

May 27, 2025 • 1 min read

SGM: A Framework for Building Specification-Guided Moderation Filters

arxiv papers