Persona Vector Control 论文知识库

15本地 PDF 已纳入

2025-2026人格向量控制快速集中出现

5主线：activation、neuron、lexical、persona vector、mechanistic analysis

1核心问题：控制强度与非目标漂移的权衡

文章间关系思维导图

二维固定布局；点击论文节点可更新论文详情

拖拽旋转；点击节点查看详情；滚轮缩放

线条按深度变淡；选中论文后只突出相关边，便于看方法关系。

ActivationNeuronPersona algebraAnalysisLexical

按控制位置和控制粒度分组

从对比激活差值抽取方向，逐渐加入层选择、强度校准、向量代数和动态组合。

从 residual vector 转向 MLP neuron 或参数子网，强调模型内部已有可切换人格结构。

UPLex 在 logits/lexicon 层调节，BILLY 和 StyleVector 面向创意生成、个性化写作等应用任务。

Trait interference 与 sycophancy 说明控制方向并不独立，且人格/意见 steering 可能影响事实性。

说明：这些论文的评测器、模型与控制目标差异较大，页面不把数值直接做排行榜，只展示每篇的关键结论和可比较维度。