论文arxiv cs.LG · 2mo ago重要

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

分类释义：学术论文 / 技术报告

TL;DR

新研究提出PND框架，通过双路径对比（正向增强视觉证据+负向惩罚语言先验）在推理时减少VLM的幻觉，无需重训练即可在POPE/MME/CHAIR上达到SOTA。

关键要点

为什么值得关注

训练-free特性使其可直接应用于生产环境中的现有模型，立即提升视觉语言系统的可靠性。

LLM 实时生成MiniMax-M2.7缓存命中

角色	你应该做什么
Tech Lead	评估PND框架集成到当前VLM项目的可行性，重点关注延迟开销和幻觉率下降的权衡
应用工程师	查看PND论文实现细节，计划在现有VLM推理流程中接入双路径对比解码模块
运维 / 平台	评估PND推理开销，在测试环境验证对服务延迟和吞吐的影响
产品 / 业务	暂无直接影响，了解即可

阅读原文 ↗来源：arxiv cs.LG