← Terence 港聞日記 • 2026-05-16

🌍 國際·科技

AMD显卡AI优化技巧汇总:Qwen3.6 27b + Hermes,llama.cpp VLLM, MTP+TurboQuant, ComfyUI, 7900XTX/AI Pro R9700!

來源:抡锤者

詳細:
1. 核心动机:自建算力替代在线 API 省钱: 为驱动 Hermes Agent(小特)实现 24 小时高频响应,放弃每天需支付费用的 DeepSeek 在线接口。 优势: 大陆地区电费低廉(尤其是夜间低谷期约 0.5 元/度),配合农村自有房产和太阳能,算力成本接近于零。 2. 软硬件选型与优化思路 主力模型: Qwen 3.6 27B。实测在生产力级别上远胜同规格模型,是驱动 Agent 的最优小模型。 硬件性能: AMD 7900 XTX: 性能强悍且显存充足,优于 Intel 和同价位 Mac。 国产算力: AI Pro R9700 (32G) 性价比极高,约为 4090 D 性能的一半;AI Max 395 胜在显存巨大,适合跑 122B MoE 大模型。 技术抄作业(来自论坛大神): MTP 投机解码: 配合 Llama.cpp 可将吐字速度提升至 80 t/s 左右。 TurboQuant: 行业公认最优解,可解决长上下文(支持 256k)下的显存和速度平衡。 配置建议: 32G 显存以内建议直冲 Llama.cpp(Vulkan 驱动对新技术支持更快),开 100k 上下文 + Q8 KV 量化。 3. 生产力工具实测 (ComfyUI) 视频生成: 避开吃配置且兼容性差的 WAN 模型;推崇 LTX 2.3 作为平替。 7900 XTX: 实测可出 480P 视频,经超分放大后 1080P 效果极佳。 AI Pro R9700: 可稳定输出 15 秒以上 720P 视频。 生态适配: 目前 AMD 显卡在音频 (VoxCPM/Qwen TTS) 和画图 (Flux/SD) 领域已轻松应对。 4. 总结与心态 务实主义: “能干活绝不折腾”,先用原始版本跑通业务,再逐步优化 TurboQuant 和 MTP。 社区力量: 强调论坛的技术沉淀远胜即时通讯群,鼓励大家去论坛“抄大神作业”。
閱讀原文 →
★ 評分(教 AI 你嘅口味):