常用: 学生 教职工 校友 OA系统 邮件系统 VPN系统 图书馆 智慧门户 EN
首页 开云盘口 中国kaiyun Redis之父下场,给DeepSeek V4单独造了一台推理引

中国kaiyun Redis之父下场,给DeepSeek V4单独造了一台推理引擎

发布时间:2026-05-09 来源:开云盘口 作者:admin 浏览:180

DeepSeek V4,已经动手逼着国外开辟者为它修专属高速公路了。

发布才两周,开源圈里,第一批 V4 原生基础步调已经冒了出来。

况兼,不是那种在现存框架上套一层壳的"小修小补"。

不是通用 GGUF 加载器;不是 llama.cpp 的 wrapper;以致根底不营救别的模子。

它只干一件事:

把 DeepSeek V4 Flash,在 Mac 上跑到极致。

这条"专属高速公路",叫ds4.c。而把修出来的东谈主,重量有点吓东谈主——

Salvatore Sanfilippo,重要员圈更老成他的另一个名字:antirez。

他一手创造了 Redis(GitHub 7.4 万 Star),并躬行主导这个大众最流行的内存数据库整整 11 年。

而当今,他的新名目 ds4.c,是一个专门为 DeepSeek V4 Flash 打造的土产货推理引擎。

时间线上,已经有网友在 128GB Mac 上把它跑了起来。

不错说,这波,Mac 库存又被 DeepSeek 清了一遍。

鲸鱼,照实值得。

专为 V4 Flash 打造的土产货推理引擎

4 月 24 日,DeepSeek 发布 V4 系列。其中,V4 Flash 是后果型号:284B 总参数、13B 激活参数、100 万 token 高下文。

这么的体量,夙昔简直默许属于云霄。

而 antirez 想作念的,是把它塞进一台 Mac。于是,ds4.c 竖立了。

这是一个用C + Metal从新写出来的推理引擎。

所有这个词这个词名目就几个文献,C 占 55.4%,Objective-C 30.2%,Metal 13.8%。Metal-only,莫得运行时,莫得框架依赖,莫得轮廓层。

Metal-only。

Metal 是苹果自家的图形和测度 API,在 Mac、iPhone、iPad 上调用 GPU 都靠它,相配于苹果生态里的 CUDA。

ds4 只用 Metal 的意旨真理是,这个引擎只在 Apple Silicon 上跑,无论 Nvidia 显卡,也无论 AMD。

所有这个词这个词名目只消一个办法:

让 V4 Flash 在土产货的苹果机器上,不仅仅"能跑",而是着实"能用"。

面前测试限度已经相配夸张:

在 128GB 内存的 MacBook Pro M3 Max 上,2-bit 量化、32K 高下文,短 prompt 预填充 58.52 token/s,生成 26.68 token/s。

换成 512GB 的 Mac Studio M3 Ultra,长 prompt(11709 token)预填充能到 468.03 token/s,生成 27.39 token/s。

对一个 284B 参数的 MoE 模子来说,这个速率在土产货机器上是可用的。

如何作念到的?

关键在三件事。

第一,非对称量化。

ds4 并不会把所有这个词参数都压到 2-bit,而是只量化路由的 MoE 大众层,up/gate 用 IQ2_XXS,down 用 Q2_K,这些层占了模子空间的绝大部分。

其他组件,2026世界杯中国压球官网分享大众层、投影层、路由层,全部保留 Q8 精度不动。

antirez 在 README 里写了一句很径直的话:

这些 2-bit 量化不是开打趣,它们在 coding agent 下阐述考究,能可靠地调用器具。

第二,KV 缓存搬到硬盘上。

当今的 LLM agent 客户端都是无景况的,每次肯求把整段对话从新发一遍。

通用引擎的作念法是每次从新作念 prefill。

ds4 的作念法是把 KV 景况写到磁盘上,下次肯求过来匹配 token 前缀,掷中了就径直从磁盘加载,跳过 prefill。

缓存的 key 是 token ID 序列的 SHA1 哈希值。

这对 Claude Code 这种每次启动会发 25K token 启动 prompt 的 agent 场景尤其有效,第一次 prefill 完成后,后续会话径直从磁盘规复。

第三,内置 OpenAI 和 Anthropic 两套 API 兼容层。

/v1/chat/completions 走 OpenAI 公约,/v1/messages 走 Anthropic 公约。tool calling 也作念了适配。README 里径直给了 opencode、Pi、Claude Code 三种 agent 客户端的建树示例。

对于为什么要作念这件事。

antirez 的恢复是,土产货推理界限有好多优秀名目,但新模子陆续发布,谨防力坐窝被下一个要完结的模子吸走。

通用引擎为了兼容所有这个词模子,必须作念轮廓。轮廓意味着协调。他想作念的是一条刻意的窄路,一次只赌一个模子,用官方 logits 作念考证,作念长高下文测试,作念满盈的 agent 集成来阐明它果真能用。

框架仍是发布,就有网友不少网友响应,开云kaiyun体育app入口登录官网已经在 Mac 上跑起来了。

你准备好在土产货跑 V4 了吗?

一个模子一个推理框架

这件事,也在开辟者圈炸出了一个更大的酌量:

畴昔会不会形成——一个模子,一个推理框架?

Hacker News 上一条高赞驳斥提了一个特意旨真理的标的,若是动手针对精准的 GPU 加模子组合构建超优化推理引擎呢?

GPU 越来越贵,若是去掉满盈多的轮廓层,径直针对精准的硬件和模子编码,可能能优化好多。

这条路的代价也很明显。吞并条驳斥指出,一朝模子逾期,一切从新来过。

antirez 我方也承认了这个问题。他说 ds4 现时赌的是 DeepSeek V4 Flash,但模子可能会换。

不变的不断是,土产货推理要在高端个东谈主机器或 Mac Studio 上跑得靠谱,起步 128GB 内存。

畴昔会怎么,README 里留了个伏笔。

现时是 Metal-only,畴昔可能会作念 CUDA 营救。但他写得很严慎,也许会,但仅此辛勤。这个名目刻意保握小、快、专注。

更值得原谅的是他在 README 里抛出的一个不雅点,土产货推理当该是三件事一皆作念好,开箱即用。

一个有 HTTP API 的推理引擎,一份针对这个引擎和这套假定止境打造的 GGUF,一套和 coding agent 对接的测试和考证。

这是一种全栈土产货推理的想路,不是把组件拼起来,是把链路当成一个家具来缱绻。

若是这条路走通了,它可能转换土产货推理的玩法。

模子厂商发布新模子的同期,社区里就会有东谈主跳出来给它作念专属引擎,作念专属量化,作念专属 agent 接入。每一代模子都有一个我方的「antirez」。

ds4 还有一个很坦率的细节。README 里有一段声明,这个软件是在 GPT 5.5 的「强力援助」下开辟的,东谈主类慎重想法、测试和调试。

antirez 说若是你不接管 AI 援助开辟的代码,这个软件不符合你。

两周时间,从 fork llama.cpp 作念适配,到从新写一个专用引擎,离不开 AI 援助。这件事自己可能比 ds4 还更值得原谅。

One more thing

终末说一下 antirez 这个东谈主。

本名 Salvatore Sanfilippo,1977 年降生于西西里岛。2009 年创建 Redis,主导这个名目十一年,2020 年离开。

离开时他写过一段话,说我方写代码是为了抒发我方,代码是一件成品而不仅仅有效的器具。他宁可被记取为一个灾祸的艺术家,也不肯被记取为一个好重要员。

2024 年底他回到 Redis,担任 evangelist 扮装。

除了 Redis 以外,他还写过 Kilo(不到 1000 行 C 代码的文本裁剪器)、dump1090(航空 ADS-B 信号解码器)、linenoise(readline 的小型替代品)。

他还在玩 Flipper Zero,写了 RF 公约分析器具,把 Asteroids 移植到上头。2022 年他出了一册科幻演义《WOHPE》,主题是 AI、样式变化、重要员,以及东谈主类和本领的互动。

他个东谈主主页第一滑写的是,「我把大部分专科时间花在写代码和写演义上。」

对于 Redis 的竖立,他在个东谈主主页里写了一段:

我太太说,Redis 的前几年我大部分代码都是坐在马桶上写的,用一台 MacBook Air 11 寸。我真但愿能说她错了,但她恰恰说得皆备对。

这种调性一语气了他作念的所有这个词名目。小、精准、自成一体。

ds4.c 亦然吞并个门道。

看一下他在 ds4 README 里对于 macOS bug 的那段备注,能坐窝嗅觉到这个东谈主的滋味。

ds4 有一个 CPU 推理旅途用于正确性考证,但现时版块的 macOS 在虚构内存完结上有一个 bug,跑 CPU 推招待导致内核崩溃。

他写谈,记取了吗?软件都很烂。我没法建设 CPU 推理来幸免崩溃,因为每次都得重启电脑,极少都不好玩。

然后加了一句,若是你有胆量,来帮咱们。

他在个东谈主主页里还留了一句话:

当代编程正变得复杂、无趣,全是要粘合的层。它正失去大部分好意思感。大多量重要员既不在面临编程的艺术面,也不在面临编程的高档工程面。

从 Redis 到 ds4.c,十五年夙昔,antirez 照旧阿谁 antirez。

只不外这一次,他动手给 AI 修路了。

参考邻接

[ 1 ] http://invece.org/

[ 2 ] https://github.com/antirez/ds4

[ 3 ] https://news.ycombinator.com/item?id=48050751

一键三连「点赞」「转发」「小心心」

宽待在驳斥区留住你的想法!

—  完  —

5 月 20 日,咱们将在北京金茂万丽旅社举办一年一度的中国 AIGC 产业峰会。

首波嘉宾声势已公布!昆仑万维方汉、智谱吴玮杰、EverMind 邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund 张璐、香港大学黄超、MarsWave 冯雷都来了,� �了解确定

请你和咱们一皆,不再仅仅酌量 AI 的畴昔,而是当今就用起来。� �  

一键原谅 � � 点亮星标

科技前沿进展逐日见中国kaiyun

博亚体育app中国官网入口