论文arxiv cs.AI · 2w ago重要

Embeddings for Preferences, Not Semantics

分类释义:学术论文 / 技术报告

TL;DR

标准文本嵌入测量语义相似性,但用于集体决策时需要的是偏好相似性(agreement)。当语义和偏好相关性断裂时,传统嵌入失效。新方法通过合成训练数据分离偏好信号与语义噪音,在11个在线 deliberation 数据集上显著提升偏好预测效果。

关键要点

  • 01标准文本嵌入测量语义相似性
  • 02但用于集体决策时需要的是偏好相似性(agreement)
  • 03当语义和偏好相关性断裂时
  • 04新方法通过合成训练数据分离偏好信号与语义噪音
为什么值得关注

构建涉及人类偏好聚合的系统(共识机制、推荐系统、众包决策平台)时,用标准 cosine 距离衡量用户与内容的匹配度可能是错误的,应使用针对偏好训练的嵌入。

对你的工程实践意味着什么

LLM 实时生成MiniMax-M2.7缓存命中
角色你应该做什么
Tech Lead审查团队负责的推荐系统、共识机制或决策平台,确认是否使用了 cosine 语义相似度而非偏好相似度,评估引入偏好嵌入的必要性
应用工程师检查当前相似度计算代码,识别是否有场景需要从语义匹配切换为偏好匹配,并了解偏好嵌入的集成方式
运维 / 平台暂无直接影响,了解即可
产品 / 业务与工程确认当前推荐指标(点击率/转化率)是否反映真实用户偏好,考虑在 A/B 测试中加入偏好嵌入方案
阅读原文 ↗来源:arxiv cs.AI

同类资讯

本页 TL;DR 与「为什么」由 LLM 生成 · 模型:MiniMax-M2.7 / Claude Haiku 4.5