Persona Vector Control Knowledge Base

Persona / Personality Vector Control 论文知识库

基于当前文件夹内 15 篇 persona-vector-control 相关论文整理。页面按方法范式、时间演进、论文关系、算法步骤和评测方式组织;Cloudflare 版不包含 PDF,只链接公开论文页面或代码页。

15本地 PDF 已纳入
2025-2026人格向量控制快速集中出现
5主线:activation、neuron、lexical、persona vector、mechanistic analysis
1核心问题:控制强度与非目标漂移的权衡

文章间关系思维导图

二维固定布局;点击论文节点可更新论文详情
Activation steering 主线 Personality vector algebra Neuron / subnetwork 控制 边界、机制与应用扩展 Persona Vector Control人格行为的表示、控制与干扰 残差流向量contrastive activation StyleVector个性化写作风格 Psych Steering心理量表校准注入 Hybrid Layer稳定 trait steering Persona Vectors多轮互动维持 向量代数强度、组合、抑制 Persona Vectors监测与控制角色特质 PERSONA动态组合代数 BILLY创意 persona blending 内部结构neurons / subnetworks NPTI人格神经元诱导 IRIS情境化人格神经元 Persona Subnetworks剪枝找人格子网 Trait Interference几何独立不等于行为独立 Sycophancy意见覆盖事实机制 UPLex解码期词汇调制 Role Vectors角色向量影响行为 Personality Vector模型合并调人格 读图建议:先读 Persona Vectors / NPTI / PERSONA 三篇建立基本范式,再读 Trait Interference 与 Sycophancy 理解边界和机制。

3D 知识图谱

拖拽旋转;点击节点查看详情;滚轮缩放
线条按深度变淡;选中论文后只突出相关边,便于看方法关系。
ActivationNeuronPersona algebraAnalysisLexical

技术递进脉络

按控制位置和控制粒度分组

Activation steering

从对比激活差值抽取方向,逐渐加入层选择、强度校准、向量代数和动态组合。

Neuron / subnetwork

从 residual vector 转向 MLP neuron 或参数子网,强调模型内部已有可切换人格结构。

解码与交互应用

UPLex 在 logits/lexicon 层调节,BILLY 和 StyleVector 面向创意生成、个性化写作等应用任务。

边界和风险

Trait interference 与 sycophancy 说明控制方向并不独立,且人格/意见 steering 可能影响事实性。

论文库

说明:这些论文的评测器、模型与控制目标差异较大,页面不把数值直接做排行榜,只展示每篇的关键结论和可比较维度。