了解最新公司动态及行业资讯

昨天,阿里通义正式发布基于 Qwen3-Omni 的全面升级版本「Qwen3-Omni-Flash-2025-12-01」。
据介绍,新模型可无缝处理文本、图像、音频、视频输入,并以流式方式同时生成自然语音与文本输出,整体针对多模态交互的准确性与效率进行增强。具体升级如下:
音视频理解与执行: 面向口语化场景显著提升对音视频指令的理解与执行能力,缓解多模态对话中的「降智」问题;多轮音视频对话的稳定性与连贯性增强,交互更自然顺畅;
系统提示可控: 全面开放 System Prompt 自定义,可精细调控模型行为(如人设风格、口语化偏好、回复长度等),提升可控性与一致性;
多语言遵循: 支持 119 种文本语言交互、19 种语音识别语言与 10 种语音合成语言,优化上版语言遵循不稳定问题,确保跨语言场景下响应准确一致;
语音生成拟人化: 解决语速拖沓与机械感,提升对于语速、停顿与韵律的自适应调节,语音表达更自然生动;
视觉与视频理解: 在多学科视觉问答与数学视觉推理任务上取得进展,视频语义理解与音视频同步能力持续优化,为实时视频对话打下基础。
官方表示,后续将推进多说话人 ASR、视频 OCR、音视频主动学习等核心能力建设,并强化基于智能体的工作流与函数调用支持,以进一步提升复杂场景下的可控性与执行力。