DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

AI 资讯2个月前发布 daohangNEW
45.4K 0 0

DeepSeek V3 升级了,新版本 V3-0324

官方轻描淡写只说是“小版本升级”,但很多人实测下来可一点也不小。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

把流行的小球弹跳测试,提升难度到 4 维空间超立方体也没问题

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

天哪,如果这只是一个小更新,那我想象不出大更新会是什么样子。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

编程这块,只需一句提示词开发一个完整产品着陆页,带自适应布局带动效,被评价为与 Claude 3.7 Sonnet 同一水平。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

由于发布时间太短,还没有正式测评结果,不过在开发者 Xeophon 的个人 Benchmark 上所有指标都有大提升,成为该测试下最好的非推理模型

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

不是推理模型也有“啊哈时刻”

DeepSeek-V3-0324 并非推理模型,在回答之前不会给出思考过程,但依然遵循一定的思维方式分解问题。

走入死胡同的话,还表现出自主回到上一步重新思考的能力。

在“9.11 和 9.9 那个大”、“Straberry 有多少个 r”已经不成问题的今天,最新折磨 AI 的难题是“让 7 米长的甘蔗通过 2 米高 1 米宽的门”。

在量子位的测试中,DeepSeek-V3-0324 先是像它的前辈以及许多其他 AI 一样碰壁。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

碰壁之后开始重新思考题目本身的含义,后面依旧陷入误区,但突然在中文解题过程中夹杂一句英语思考,类似 DeepSeek-R1 技术报告中的“啊哈时刻”

等等,这似乎与之前的对角线方法相似,也许我遗漏了什么。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

顿悟之后,突然就走上了正确的道路,注意到了题目中没直接提到的隐藏条件。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

虽然从计算过程看,还是没理解到问题的本质,但好歹得出了解决方案,还认识到了自己的误区。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

依旧免费,依旧开源

像这样的优秀模型依旧免费,依旧开源,权重文件已火速上线 HuggingFace,使用最宽松的 MIT 协议。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

所有权重文件加起来占硬盘空间约 688GB,与初代 v3 保持一致,说明依然是 671B 参数的 MoE 模型,目前没有更多技术细节,还需等待官方进一步发布公告。

目前在官网和官方 App(关闭深度思考即可)、HuggingFace 等渠道都能体验到 v3-0324。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

也可以到大模型竞技场去与其他模型 pk,不过投票结果还要等一段时间才能出来。

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

当然最让大家期待的还是,v3 更新了,r2 还会远吗?

DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”

官网试玩:

https://chat.deepseek.com/

HuggingFace:

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/blob/main/README.md

参考链接:

  • [1]https://x.com/TheXeophon/status/1904225899957936314

  • [2]https://x.com/Yuchenj_UW/status/1904223627509465116

  • [3]https://x.com/risphereeditor/status/1904194061780590773

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨,原标题《DeepSeek V3“小版本升级”实测堪比 V3.5,非推理模型也有“啊哈时刻”,7 米甘蔗过 2 米门想通了》

© 版权声明

相关文章

暂无评论

none
暂无评论...