DeepSeek V4的Agent能力是开源第一——但还有一件事,悄悄变差了

4月24日,DeepSeek V4正式开源发布。海外AI社区48小时内完成了第一轮系统性评测。
结论出来了,但出乎很多人意料。好消息是:V4-Pro在智能体(Agent)任务上排名所有已公开开源模型第一。坏消息是:它的幻觉率,比上一代有所上升。
这两件事放在一起,值得认真解读一下。
幻觉率是什么,为什么企业端比个人用户更在乎
「幻觉」是AI领域的专业术语,指的是:当模型不知道答案时,它会编造一个听起来很像真的回答,而不是说「我不知道」。注意:幻觉率94%,不是说V4有94%的回答是错的——它的含义是,在那些它本来不确定的问题上,有94%的概率选择给出回答而非拒绝回答。这个区别很重要。
热门文章

