论文arxiv cs.CL · 2mo ago需要关注

Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models

分类释义：学术论文 / 技术报告

TL;DR

论文提出两项技术实现细粒度TTS风格控制：利用对比风格提示的方向向量实现跨语句插值（性别转换成功率99-100%，音高变化36Hz），以及通过KV-cache交换和滑动窗口注意力机制解决语句内风格过渡问题。

关键要点

为什么值得关注

TTS模型此前难以在同一语句内实现风格平滑过渡，该研究通过修改注意力机制解决了这一核心瓶颈。工程师可借鉴KV-cache交换技术应用于其他需要动态控制生成过程的生成式模型，实现音频/视频的实时风格迁移。

LLM 实时生成MiniMax-M2.7缓存命中

角色	你应该做什么
Tech Lead	评估KV-cache交换技术在其他生成式模型（音频/视频）的适用性，将其纳入模型架构路线图
应用工程师	关注该论文的开源实现，复现风格控制API以支持同句内的情感/音色平滑过渡
运维 / 平台	评估滑动窗口注意力机制的GPU显存占用变化，更新TTS服务的资源配额
产品 / 业务	暂无直接影响，了解即可

阅读原文 ↗来源：arxiv cs.CL