Picture for Harrison Ngan

Harrison Ngan

Representation Bending for Large Language Model Safety

Add code
Apr 02, 2025
Viaarxiv icon