在2025云栖大会现场,阿里云CTO周靖人接连发布了七款大模型技术产品,覆盖语言、语音、视觉、多模态、代码等模型领域。%20

  阿里云还展示了在超节点服务器、高性能网络等AI基础设施方面的最新动向,并宣布了新一轮全球基础设施扩建计划。

  英伟达英特尔、联想、AMD、软通动力、中兴、鸿鑫智造等计算产业链伙伴悉数参展。其中,阿里云和英伟达在Physical%20AI(物理AI)领域达成合作,推动具身智能应用落地。

  ▍连发7款大模型

  会上,阿里旗舰模型Qwen3-Max正式发布,是通义千问家族中最大、最强的基础模型,预训练数据量达36T,总参数超过万亿,在Coding编程能力和Agent工具调用能力上有较大提升。

  下一代基础模型架构Qwen3-Next及系列模型也一并发布,其模型总参数80B里激活3B,性能即可达到千问3旗舰版235B模型。

  此外,千问编程模型Qwen3-Coder、视觉理解模型Qwen3-VL、全模态模型Qwen3-Omni也在会上亮相。

通义千问Qwen模型家族图

  在多模态模型中,阿里开源了视觉理解模型Qwen3-VL,并升级了3D Grounding(3D检测)能力,为具身智能提供支撑;扩展支持百万tokens上下文,视频理解时长扩展到2小时以上。

  全模态模型Qwen3-Omni具备音视频能力,可像人类一样听说写,未来可部署于车载、智能眼镜和手机等。

image

通义万相Wan模型家族图

  通义万相是通义大模型家族中的视觉基础模型,此次推出的Wan2.5-preview系列模型,涵盖文生视频、图生视频、文生图和图像编辑四大模型。

  通义万相2.5视频生成模型能生成和画面匹配的人声、音效和音乐BGM,首次实现音画同步的视频生成能力,进一步降低电影级视频创作的门槛。

  通义万相2.5视频生成时长从5秒提升至10秒,支持24帧每秒的1080P高清视频生成,并提升模型指令遵循能力。通义万相2.5还升级了图像生成能力,可生成中英文文字和图表,支持图像编辑功能,输入一句话即可完成修图。

image

阿里云CTO周靖人发布通义百聆

  此次云栖大会上,通义大模型家族迎来了新成员——语音大模型通义百聆。百聆新发布了语音识别大模型Fun-ASR和语音合成大模型Fun-CosyVoice。Fun-ASR基于数千万小时真实语音数据训练而成,具备上下文理解能力与行业适应性;Fun-CosyVoice可提供上百种预制音色,可以用于客服、销售、直播电商、消费电子