独家揭秘：VUI Labs获数千万融资，情感语音大模型重塑AI交互

type

status

date

slug

summary

顶尖团队入局：资本青睐背后的硬核底色

在瞬息万变的AI新闻中，能够持续获得资本青睐的初创企业，往往拥有极其深厚的技术护城河。VUI Labs的诞生可谓是学术界与产业界的强强联合。公司由教育部长江学者、上海交通大学计算机学院特聘教授钱彦旻创办。钱教授不仅是听觉认知与计算声学研究中心的负责人，其团队早在2019年便在全球范围内率先提出了端到端语音模型训练的理念。

与此同时，公司创始人兼CEO梅杰作为连续成功创业者，拥有极强的商业敏锐度与落地能力。这种“顶尖科学家+成熟商业操盘手”的组合，使得VUI Labs不仅能在底层LLM（大型语言模型）算法上不断突破，更能迅速将技术转化为极具市场竞争力的商业产品。他们以“让AI听懂情感，让交互充满温度”为使命，正在为人工智能赋予真正的“人情味”。

Luna系列大模型：突破超低延迟与情感交互的极限

当前，无论是使用chatGPT还是claude的语音功能，用户最关注的痛点往往是延迟和情感表现力。VUI Labs自研的多模态情感交互语音大模型Luna系列，正是为了解决这一行业痛点而生。

根据最新的权威测评VoiceBench数据显示，作为全球首个端到端情感语音交互模型，Luna-1斩获了79.05的高分，稳居行业第一梯队。其语音对话延迟仅为1.4秒，为实时交互体验奠定了坚实基础。此外，Luna-TTS-1语音合成模型的延迟更是低至惊人的200毫秒。依托自主可控的高吞吐数据管线，Luna模型彻底告别了传统AI生成中不可控的“抽卡式”体验，实现了稳定、高质量、富含情感的语音输出。

更令人瞩目的是，团队在同声传译领域提出了SimulMEGA无监督策略学习框架。基于此框架打造的Luna-Live-Translation-1，是全球首个可端侧部署的同声传译模型。其模型大小仅为500M，延迟低至1.5秒，目前已在知名手机品牌的欧洲版本上成功实现商业落地。这种将强大的大模型能力压缩至端侧的技术，代表了未来硬件AI化的重要发展方向。

SaySo语音智能体：重塑工作流与AI变现新路径

技术的最终目的在于应用。VUI Labs推出的首个C端语音智能体产品SaySo，彻底颠覆了传统的语音转文字工具。SaySo不仅是一个精准的“听写员”，更是一个懂思考、能理解上下文的“合作者”。

对于广大内容创作者而言，SaySo极大地缩短了从创意构思到表达落地的路径。一位资深博主反馈，过去需要一小时敲打的稿件，现在通过口述与SaySo协作，不到10分钟即可完成，且生成的文本无需二次修改即可一键分发。这不仅是效率的飞跃，更是AI变现的绝佳利器。用户不再需要绞尽脑汁去编写复杂的提示词（Prompt），只需通过自然的语音交流，SaySo就能精准捕捉意图并输出高质量内容。

测试数据显示，SaySo展现出了惊人的用户粘性。深度用户中位数键盘依赖度在短短6周内断崖式降至20%，绝大部分数字化工作流已被语音智能体接管。这证明了在特定场景下，语音Agent完全有能力替代传统的图形用户界面（GUI）。

行业洞见：Voice as UI，开启AGI时代的新纪元

正如VUI Labs创始人钱彦旻教授所言，自然语言正在成为新的编程语言，而键盘正在成为束缚人类表达效率的枷锁。传统的GUI能提供的信息量有限，且需要用户主动去适应机器的逻辑。而基于Skill-based Voice Agent Framework的语音交互，则是让机器来适应人类最自然的沟通方式。

投资方同创伟业和靖亚资本的代表也一致认为，下一代人机交互界面的核心在于语音，而语音交互的核心在于时延与情感。对标海外估值超百亿美金的ElevenLabs，以及估值超7亿美金的Wispr Flow，VUI Labs在国内乃至全球市场都展现出了巨大的增量空间和商业价值。

在人工智能的浪潮中，大模型的能力正在加速向多模态和智能体方向演进。VUI Labs通过构建从底层模型到上层应用的全链路能力，正在将“Make voice as the new UI”的愿景变为现实。

如果您想了解更多关于大模型的最新进展、获取前沿的AI资讯，或者探索更多提升生产力的AI工具与Prompt技巧，欢迎访问我们的AI门户：https://aigc.bar。在这里，掌握第一手AI新闻，与全球AI先行者共同探索未来的无限可能。