新智元报道
编辑:定慧
【新智元导读】擅长「种草」的小红书正加大技术自研力度,两个月内接连开源三款模型!最新开源的首个多模态大模型dots.vlm1,基于自研视觉编码器构建,实测看穿色盲图,破解数独,解高考数学题,一句话写李白诗风,视觉理解和推理能力都逼近Gemini 2.5 Pro闭源模型。
最近的AI圈只能说是神仙打架,太卷了。
OpenAI终于发了开源模型,Claude从Opus 4升级到4.1,谷歌推出生成游戏世界的Genie 3引发社区热议。
国产模型这边,就在前几天,HuggingFace上排在最前面的10个开源模型还都来自国内。
国产模型前10霸榜和gpt-oss开源后直冲第一
但其实仔细观察这些排名靠前的开源模型,能发现一个「现象」:这些模型大部分都是文本模型,不具备多模态能力。
OpenAI首次开源的模型,也都是文本模型
如果说具备「多模态」能力,还要「好用」,并且是开源的模型,还真的数不出几个。
这边是一群文本模型神仙打架,那边小红书人文智能实验室(Humane Intelligence Lab,hi lab)在昨天低调开源了视
希软科技
2025-08-08