阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

稳健医疗上半年净利4.92亿元，同比增长28.07%实测是真的 688692，总经理刚被留置，副总又被立案调查！实垂了 爱尔康上调2025年营收展望科技水平又一个里程碑 荣耀Magic V Flip2正式发布：首发2亿超清写真镜头，5499元起 潮宏基：8月21日召开董事会会议 688692 总经理刚被留置副总又被立案调查！ 稳健医疗上半年净利4.92亿元，同比增长28.07%又一个里程碑 英国零售商史密斯集团暴跌33% 此前误发盈利预警最新进展 赛诺医疗上半年净利1384.16万元，同比增长296.54% 柏楚电子上半年净利润同比增30.32% 高端视觉寻缝器实现多品牌机器人适配最新报道 万里扬2025年净利润同比增长50.24% 大力推进重卡变速器和非公路业务秒懂 吉视传媒：2025年半年度公司实现营业收入997162843.58元后续会怎么发展 太极集团：2025年半年度净利润约1.39亿元，同比下降71.94%是真的？ 丽珠集团：2025年半年度归属于上市公司股东的净利润同比增长9.40%记者时时跟进 丽珠集团：2025年半年度归属于上市公司股东的净利润同比增长9.40%后续来了 塔吉特百货更换首席执行官为公司元老，股价下跌10%最新报道 厦钨新能公布2025半年度分配预案拟10派2元 重庆路桥发生大宗交易成交溢价率15.16%是真的吗？ 青云科技：选举董事长及法定代表人 牧原股份2025半年度拟派50.02亿元红包实垂了 吉宏股份：2025年半年度归属于上市公司股东的净利润同比增长63.27%最新报道 美国制商银行上调季度股息至每股1.5美元官方已经证实 沙钢股份2025半年度拟派5484.56万元红包反转来了 九芝堂上半年归母净利润1.44亿元干细胞项目取得积极进展反转来了 美国制商银行上调季度股息至每股1.5美元 喜临门2025半年度拟派1.04亿元红包 爱威科技大宗交易成交385.80万元后续会怎么发展 许继电气披露2025半年度分配预案：拟10派2.38元官方通报来了 北方稀土8月20日大宗交易成交363.44万元科技水平又一个里程碑 美国制商银行上调季度股息至每股1.5美元 许继电气披露2025半年度分配预案：拟10派2.38元专家已经证实 许继电气：8月28日将举行2025年半年度业绩说明会 兴业银行：8月29日将召开2025年半年度业绩说明会官方已经证实 刚刚，牛股提示风险！短期市场过热！ 一汽入股零跑？官方回应 昆仑万维：拟2亿元增资AIGC子公司天工Skywork实测是真的 兴业银行：8月29日将召开2025年半年度业绩说明会 上海石化：8月28日将举行2025年中期业绩说明会秒懂 偏爱“山东干部”的四大国有行 刚刚，牛股提示风险！短期市场过热！ Guess同意以14亿美元达成私有化交易后续来了 加拿大航空公司将恢复航班运营客舱乘务员已重返工作岗位后续会怎么发展 【今日关注】云铝股份7月份经济活动分析会强调：坚定信心，乘胜追击，冲刺全年“挑战目标”

感谢本站网友乌蝇哥的左手的线索投递！

本站 3 月 27 日消息，今日凌晨，阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示，该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下：

全能创新架构：Qwen 团队提出了一种全新的 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在支持文本 / 图像 / 音频 / 视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术，称为 TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio，并与 Qwen2.5-VL-7B 保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

据官方介绍，Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 Thinker 实时输出的语义表征与文本，流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构，融合音频 / 图像编码器进行特征提取；Talker 则采用双轨自回归 Transformer 解码器设计，在训练和推理过程中直接接收来自 Thinker 的高维表征，并共享全部历史上下文信息，形成端到端的统一模型架构。

模型架构图

模型性能方面，Qwen2.5-Omni 在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模态任务 OmniBench，Qwen2.5-Omni 达到了 SOTA 的表现。此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和主观自然听感）。

▲模型性能图

Qwen Chat：//chat.qwenlm.ai

Hugging Face：//huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope：//modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope：//help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub：//github.com/QwenLM/Qwen2.5-Omni

Demo 体验：//modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo