15本地 PDF 已纳入
2025-2026人格向量控制快速集中出现
5主线:activation、neuron、lexical、persona vector、mechanistic analysis
1核心问题:控制强度与非目标漂移的权衡
文章间关系思维导图
二维固定布局;点击论文节点可更新论文详情3D 知识图谱
拖拽旋转;点击节点查看详情;滚轮缩放线条按深度变淡;选中论文后只突出相关边,便于看方法关系。
ActivationNeuronPersona algebraAnalysisLexical
技术递进脉络
按控制位置和控制粒度分组Activation steering
从对比激活差值抽取方向,逐渐加入层选择、强度校准、向量代数和动态组合。
Neuron / subnetwork
从 residual vector 转向 MLP neuron 或参数子网,强调模型内部已有可切换人格结构。
解码与交互应用
UPLex 在 logits/lexicon 层调节,BILLY 和 StyleVector 面向创意生成、个性化写作等应用任务。
边界和风险
Trait interference 与 sycophancy 说明控制方向并不独立,且人格/意见 steering 可能影响事实性。
论文库
说明:这些论文的评测器、模型与控制目标差异较大,页面不把数值直接做排行榜,只展示每篇的关键结论和可比较维度。