商汤日日新5.5发布,多模态理解提升30%
2025年6月25日,商汤科技正式发布日日新(SenseNova)5.5版本大模型。这是商汤在AI大模型领域的又一次重大迭代升级,在多模态理解能力上实现了约30%的显著提升,并在多个国际权威benchmark上刷新了成绩。
多模态能力全面升级
日日新5.5版本的核心亮点在于多模态理解能力的跃升。商汤科技表示,新模型在视觉问答(VQA)、图像理解、文档理解等多个多模态基准测试中均取得了行业领先的成绩。
具体而言,在VQA v2.0数据集上,日日新5.5的准确率达到了创纪录的88.6%;在DocVQA文档理解任务中,模型在复杂排版、手写体、多语言混排等场景下的理解准确率提升至84.2%;在图像描述(Image Captioning)任务上,CIDEr分数同比提升约27%。
这一成绩的背后是商汤在大规模多模态预训练方面的持续深耕。日日新5.5采用了新一代视觉编码器和跨模态对齐架构,能够在更大规模、更多样化的图文数据上进行训练,从而实现对视觉内容更深层次的语义理解。
端侧部署能力优化
除了模型能力的提升,日日新5.5在端侧部署方面也做了重要优化。商汤推出了针对移动设备和边缘计算场景的轻量化版本SenseNova-Lite 5.5,通过模型量化、知识蒸馏和结构化剪枝等技术的组合应用,将模型体积压缩至原来的1/5,同时保持了90%以上的核心能力。
据商汤官方数据,SenseNova-Lite 5.5在高通骁龙8 Gen 4、联发科天玑9500等最新移动芯片上,推理速度可达每秒35 Token以上,首次实现了大模型在旗舰手机上的流畅运行。这将加速AI大模型从云端走向端侧,催生更多终端设备上的原生AI应用。
垂直行业落地实践
商汤日日新系列大模型已在多个垂直行业实现规模化落地,展现出强大的产业赋能能力。
智慧城市:在智慧城市领域,日日新5.5的视觉理解能力被广泛应用于城市治理场景。通过对接城市监控摄像头网络,模型能够实时分析交通流量、识别异常事件(如交通事故、人群聚集、违规占道等),并将分析结果以结构化报告的形式推送给城市管理部门。据商汤披露,基于日日新5.5的智慧城市方案已在超过30个城市部署,事件识别准确率超过95%。
智慧医疗:在医疗领域,商汤大模型在医学影像辅助诊断方面取得了重要突破。日日新5.5支持对CT、MRI、X光等多种影像模态的智能分析,在肺结节检测、骨折识别、眼底病变筛查等任务上达到了三甲医院主治医师级别的诊断准确率。目前已有超过200家医院引入商汤的AI辅助诊断方案。
自动驾驶:在自动驾驶领域,商汤的技术被用于感知系统的多模态融合。日日新5.5的视觉-语言对齐能力帮助自动驾驶系统更好地理解复杂交通场景中的语义信息,如识别临时交通标志、理解交警手势、预测行人意图等。商汤与多家头部车企的合作项目已在量产车型中搭载了相关技术。
日日新系列模型发展历程
商汤日日新系列自2023年首次发布以来,已有多次重大版本更新。从最初的日日新1.0到如今的5.5版本,商汤在两年多的时间里完成了从单模态到多模态、从云端到端侧的全面进化。日日新5.0版本于2025年初发布,已在多个行业构建起成熟的应用生态;5.5版本在此基础上进一步强化了多模态理解能力和端侧部署体验,标志着商汤大模型技术进入了新的发展阶段。
业内分析人士指出,商汤日日新5.5的发布,进一步巩固了商汤在国产AI大模型第一梯队中的地位。多模态能力的大幅提升和端侧部署的突破,将为商汤在消费电子、智能终端等领域的商业化拓展打开新的空间。