Tensorrt LLM - 搜索 News

LLM推理引擎怎么选？TensorRT vs vLLM vs LMDeploy vs MLC-LLM

LLM擅长文本生成应用程序，如聊天和代码完成模型，能够高度理解和流畅。但是它们的大尺寸也给推理带来了挑战。有很多个框架和包可以优化LLM推理和服务，所以在本文中我将整理一些常用的推理引擎并进行比较。 TensorRT-LLM TensorRT-LLM是NV发布的一个推理引擎。

36氪

大模型无限流式输入推理飙升46%，国产开源加速「全家桶」，打破多 ...

Colossal-AI团队开源了SwiftInfer，基于TensorRT实现了StreamingLLM，可以进一步提升大模型推理性能46%，为多轮对话推理提供了高效可靠的落地方案。大模型推理再次跃升一个新台阶！最近，全新开源的国产SwiftInfer方案，不仅能让LLM处理无限流式输入，而且还将推理性能 ...

电子工程专辑

2026 大模型与多模态部署四大热门框架早知道

深度学习已经从CNN模型时代发展到大模型LLM时代到如今的MLLM与VLM时代，原有CNN为主的深度学习部署框架已经无法满足LLM与VLM模型部署的需求，最近今年主流的LLM与VLM部署框架主要包含vLLM、TensorRT-LLM、llamacpp、Ollama、LMDeploy、LMStudio等。 vLLM vLLM（Vectorized Large Language ...

来自MSN

CES 2026 | NVIDIA TensorRT Edge-LLM 加速汽车与机器人领域的 LLM 和 VLM 推理

大语言模型（LLM）与多模态推理系统正迅速突破数据中心的局限。越来越多的汽车与机器人领域的开发者希望将对话式 AI 智能体、多模态感知系统和高级规划功能直接部署在端侧，因为在这些场景中，低延迟、高可靠性以及离线运行能力至关重要。本文介绍了 ...

3 天

谷歌 TurboQuant 重磅发布：LLM 键值缓存内存压缩 6 倍、速度提升 8 倍 ...

3月26日消息，谷歌研究团队（Google Research）近日正式推出全新向量量化压缩算法TurboQuant，通过创新的 PolarQuant 与 QJL 技术，将大语言模型（LLM）推理过程中的 ** 键值缓存(KV Cache)** 内存需求减少至少6倍，在 Nvidia H100GPU 上注意力计算速度提升最高8倍，且在多项长上下文基准测试中实现零精度损失。这一突破性进展有望大幅降低 ...

新浪网

英伟达下场，首次优化DeepSeek-R1！B200性能狂飙25倍，碾压H100

当FP4的魔法与Blackwell的强大算力相遇，会碰撞出怎样的火花？答案是：推理性能暴涨25倍，成本狂降20倍！随着DeepSeek-R1本地化部署的爆火，英伟达也亲自下场，开源了首个基于Blackwell架构的优化方案——DeepSeek-R1-FP4。在新模型的加持下，B200实现了高达21,088 token ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果