一个跑分平平的模型，怎么就登顶了OpenRouter排行榜？

最近刷到一个挺有意思的事。

OpenRouter的AI模型排行榜上，突然冒出来一个叫Hy3 preview的模型，用量直接超过了Claude，而且不是小超，是超了50%以上。

OpenRouter这东西大家应该不陌生，它是个LLM聚合平台，一个API就能调用市面上大部分模型。因为它做的是中间商的活儿，所以手里有非常真实的用户使用数据——哪个模型被调用最多、用户在什么场景用什么模型，它都清楚。这些数据它公开放在AI Model Rankings页面上，算是少数能看到真实使用情况的窗口。

问题来了：Hy3是谁？

搜了一圈，发现是腾讯开源的一个模型。Hugging Face上有它的模型卡，但benchmark结果说实话有点尴尬——跟其他国产开源模型比都不算突出，更别提跟Claude Opus 4.7、GPT 5.5这些头部玩家比了。

那它凭什么用量第一？

便宜就是正义？#

最直觉的解释是价格。Hy3在OpenRouter上的标价是 $0.066/百万token输入，确实比当前排名第一的DeepSeek V4 Flash的$ 0.10/百万token便宜不少。

但便宜就一定有人用吗？如果质量不行，免费都没人要。

有意思的是，Hy3之前确实免费过一段时间。5月8号左右它从免费SKU切到了付费，但用量基本没掉。这说明什么？说明用户试过之后，觉得花钱也值。

不过作者Max Woolf（前Facebook数据科学家）做了些测试，觉得Hy3的质量确实也就那样，跟其他国产模型差不多水平，远远没到Claude那个级别。所以他也很困惑。

98%输入、2%输出的惊人比例#

文章里有个数据让我愣了一下：Hy3的调用中，98%是输入token，只有2%是输出token。

这个比例太反常了。正常的对话或者代码生成，输出应该占相当比例才对。98%输入意味着什么？大概率是有某个大型应用在用Hy3做数据处理——把大量文本丢进去，只取少量结果。

而且OpenRouter的数据显示，排名前5的应用只占Hy3用量的不到1%。这说明不是某个知名app切了默认模型导致的，而是用量分散在大量用户中。

这就更奇怪了。

缓存：被忽视的定价变量#

缓存这块其实挺关键的。

2026年了，LLM调用的基本模式没变——每次请求都要重新处理整个对话历史的所有token。对agent场景来说，这意味着输入token会随着对话轮次累积增长。所以大家经常建议开新对话，别让context太长。

大部分LLM提供商都实现了prompt caching：之前处理过的输入token可以复用，不用重新计算。这对双方都是好事——提供商省算力，用户省钱。缓存命中的token通常只要原价的10%左右。

但这里有个关键差异：不同提供商的缓存折扣不一样。

DeepSeek V4 Flash有13个提供商，缓存读取价格从原价的20%到50%不等。但DeepSeek自己提供的版本，缓存读取价格只有原价的2%。

2%！

DeepSeek V4 Pro更夸张，缓存读取只要0.83%。

这是因为DeepSeek从V4开始实现了新的KV缓存方案，作为模型的创造者，它最能利用自己的创新。这些成本优势直接传递给了用户。

“标价”已经没什么意义了#

说白了，LLM的标价现在就是个参考数字。

实际使用中98%的token是输入，而输入token又会被大量缓存。真要看成本，得看缓存命中率和缓存折扣。OpenRouter现在在模型页面上加了一个”effective price”表格，根据缓存命中情况实时更新。DeepSeek V4 Flash通过DeepSeek自己提供时，实际输入价格是 $0.018/百万token。Hy3呢？$ 0.034——差不多两倍。

所以Hy3并不是最便宜的。至少有缓存的情况下不是。

然后呢#

说说我自己从这件事里琢磨出来的几件事吧。

benchmark越来越不能当饭吃了。Hy3跑分一般，但用量碾压了跑分更好的模型。用户用脚投票，投出来的结果跟学术benchmark完全不同。当然用量大不代表质量好，可能只是某个特定场景下刚好合适。但这个信号很明确：benchmark测的东西，跟用户真正在乎的东西，已经脱节了。

LLM定价也变成了一个复杂的经济学问题。标价、缓存折扣、缓存命中率、提供商差异……这些因素叠在一起，实际成本可能跟标价差出一个数量级。选模型不能只看标价了，得算实际账。

中国公司的定价策略确实猛。DeepSeek的缓存折扣能做到2%，这背后是技术优势也是市场策略。在agentic AI竞争白热化的2026年，这种定价能力是很实在的护城河。当然也有人担心数据安全——DeepSeek在OpenRouter上的数据政策显示prompt training默认开启，这个得自己权衡。

还有就是订阅制和API制的竞争。Claude Code、Codex这些订阅服务如果你能用满额度，确实划算。但DeepSeek V4 Flash这种超低价API提供了另一种可能——不用锁进订阅，按需付费。这对整个定价体系都是一种制衡。

回到Hy3的谜团，Max Woolf猜测可能是某个没公开的大型应用在用它做数据处理。我觉得这个判断挺合理。不过OpenRouter的数据也显示，用户切换模型的成本很低——一旦大家发现DeepSeek V4 Flash的缓存价格这么香，Hy3的用量大概率会掉。

2026年的LLM市场，定价和生态的竞争比模型能力本身更有看头。跑分谁都能刷，但缓存经济学、提供商生态、用户切换成本这些”软实力”，才是真正决定市场份额的东西。