论文arxiv cs.AI · 2mo ago重要

Embeddings for Preferences, Not Semantics

分类释义：学术论文 / 技术报告

TL;DR

标准文本嵌入测量语义相似性，但用于集体决策时需要的是偏好相似性（agreement）。当语义和偏好相关性断裂时，传统嵌入失效。新方法通过合成训练数据分离偏好信号与语义噪音，在11个在线 deliberation 数据集上显著提升偏好预测效果。

关键要点

为什么值得关注

构建涉及人类偏好聚合的系统（共识机制、推荐系统、众包决策平台）时，用标准 cosine 距离衡量用户与内容的匹配度可能是错误的，应使用针对偏好训练的嵌入。

LLM 实时生成MiniMax-M2.7缓存命中

角色	你应该做什么
Tech Lead	审查团队负责的推荐系统、共识机制或决策平台，确认是否使用了 cosine 语义相似度而非偏好相似度，评估引入偏好嵌入的必要性
应用工程师	检查当前相似度计算代码，识别是否有场景需要从语义匹配切换为偏好匹配，并了解偏好嵌入的集成方式
运维 / 平台	暂无直接影响，了解即可
产品 / 业务	与工程确认当前推荐指标（点击率/转化率）是否反映真实用户偏好，考虑在 A/B 测试中加入偏好嵌入方案

阅读原文 ↗来源：arxiv cs.AI