2025 年 1 月 20 日,DeepSeek(深度求索)正式发布了 DeepSeek-R1 模型,并由此开启了新的开源 LLM 时代。在 Hugging Face 刚刚发布的《「DeepSeek 时刻」一周年记》博客中,DeepSeek-R1 也是该平台上获赞最多的模型。 如今,刚过一年时间,DeepSeek 的新模型又在 GitHub 悄然现身。
传言会在春节期间发布的DeepSeek V4,一直都没现身。 在 2026 年 1 月初,外媒援引了两名直接了解Deepseek发布计划的知情人士消息,称 DeepSeek 计划在春节期间推出其下一代旗舰模型 V4。爆料还提到V4的内部测试在编程能力上已经超越了Claude 3.5 Sonnet和GPT-4o等竞品。
此次曝光源于DeepSeek对其开源推理加速库FlashMLA的更新。在横跨114个文件的代码变动中,出现了28处“MODEL1”标识符,其技术路径与现有的V32(即DeepSeek-V3.2)架构存在显著差异,暗示这是一个经过彻底重构的新设计。 近日, DeepSeek在GitHub上的代码库更新中,意外 ...
【新智元导读】DeepSeek V4,据说明天就要上线了?这是首个匹敌顶尖闭源模型的开源模型,被网友评为「一鲸落万物生」。泄露的基准测试显示,它在SWE-bench Verified上取得了83.7%,已经超越Opus 4.5和GPT-5.2! 就在刚刚,一张图在全网疯狂刷屏了! 据说,DeepSeek V4的 ...
DeepSeek官方GitHub仓库更新了一系列FlashMLA代码; ②有人猜测MODEL1可以适配英伟达新一代GPU。 2025年1月,DeepSeek-R1上线,此时正值R1模型发布一周年之际,DeepSeek新模型“MODEL1”曝光。 北京时间1月21日,DeepSeek官方GitHub仓库更新了一系列FlashMLA代码,借助AI对全部总 ...
DeepSeek-OCR2开源,引入因果流视觉编码器,刷新SOTA。 【导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。 DeepSeek又双叒叕 ...
2月11日,深度求索(DeepSeek)悄悄地对其旗舰模型进行灰度测试。 据科创板日报报道,多名用户反馈,DeepSeek在网页端和APP端进行了版本更新,支持最高1M(百万)Token的上下文长度。而去年8月发布的DeepSeekV3.1上下文长度拓展至128K。 记者实测中发现,DeepSeek在 ...
使用微信扫码将网页分享到微信 「服务器繁忙,请稍后再试。」 一年前,我也是被这句话硬控的用户之一。 DeepSeek 带着 R1 在一年前的今天(2025.1.20)横空出世,一出场就吸引了全球的目光。 那时候为了能顺畅用上 DeepSeek,我翻遍了自部署教程,也下载过不少 ...
朋友们,见证历史的时刻又要到了! 《金融时报》报道,DeepSeek V4,下周正式登场! 距离上一次DeepSeek发布重大模型R1,已经过去了整整一年多。 这一年里,AI行业风起云涌,OpenAI连推数代GPT,Anthropic的Claude杀入顶级阵营,谷歌Gemini疯狂迭代。 整个硅谷都在用数 ...
前述内容由第一财经“星翼大模型”智能生成,相关AI内容力求但不保证准确性、时效性、完整性等。请用户注意甄别,第一财经不承担由此产生的任何责任。 如您有疑问或需要更多信息,可以联系我们 yonghu@yicai.com “MODEL1”很可能已接近训练完成或推理部署阶段 ...
这个春节,在所有人都盯着DeepSeek,会不会再度搞事情的时候,DeepSeek罕见地保持了沉默。 这下子,中国AI圈的画风就有些割裂了。一边是智谱、千问、即梦纷纷亮剑,接连发布新模型,争先恐后地展示技术进步。而另一边,则是DeepSeek新模型缺席春节假期,与 ...
DeepSeek R1的影响力,不用赘述,问世之后长达数月的时间里,创造了消费级AI应用增长速度的新纪录,全国各地也都在反思和探讨,为什么自己没能孵化出幻方量化这样的科技企业。这种现象级的社会影响力,至今都是独一无二的。 这个春节,在所有人都盯着 ...