最近刷到一个挺有意思的事。
OpenRouter的AI模型排行榜上,突然冒出来一个叫Hy3 preview的模型,用量直接超过了Claude,而且不是小超,是超了50%以上。
OpenRouter这东西大家应该不陌生,它是个LLM聚合平台,一个API就能调用市面上大部分模型。因为它做的是中间商的活儿,所以手里有非常真实的用户使用数据——哪个模型被调用最多、用户在什么场景用什么模型,它都清楚。这些数据它公开放在AI Model Rankings页面上,算是少数能看到真实使用情况的窗口。
问题来了:Hy3是谁?
搜了一圈,发现是腾讯开源的一个模型。Hugging Face上有它的模型卡,但benchmark结果说实话有点尴尬——跟其他国产开源模型比都不算突出,更别提跟Claude Opus 4.7、GPT 5.5这些头部玩家比了。
那它凭什么用量第一?
便宜就是正义?
最直觉的解释是价格。Hy3在OpenRouter上的标价是0.10/百万token便宜不少。
但便宜就一定有人用吗?如果质量不行,免费都没人要。
有意思的是,Hy3之前确实免费过一段时间。5月8号左右它从免费SKU切到了付费,但用量基本没掉。这说明什么?说明用户试过之后,觉得花钱也值。
不过作者Max Woolf(前Facebook数据科学家)做了些测试,觉得Hy3的质量确实也就那样,跟其他国产模型差不多水平,远远没到Claude那个级别。所以他也很困惑。
98%输入、2%输出的惊人比例
文章里有个数据让我愣了一下:Hy3的调用中,98%是输入token,只有2%是输出token。
这个比例太反常了。正常的对话或者代码生成,输出应该占相当比例才对。98%输入意味着什么?大概率是有某个大型应用在用Hy3做数据处理——把大量文本丢进去,只取少量结果。
而且OpenRouter的数据显示,排名前5的应用只占Hy3用量的不到1%。这说明不是某个知名app切了默认模型导致的,而是用量分散在大量用户中。
这就更奇怪了。
缓存:被忽视的定价变量
缓存这块其实挺关键的。
2026年了,LLM调用的基本模式没变——每次请求都要重新处理整个对话历史的所有token。对agent场景来说,这意味着输入token会随着对话轮次累积增长。所以大家经常建议开新对话,别让context太长。
大部分LLM提供商都实现了prompt caching:之前处理过的输入token可以复用,不用重新计算。这对双方都是好事——提供商省算力,用户省钱。缓存命中的token通常只要原价的10%左右。
但这里有个关键差异:不同提供商的缓存折扣不一样。
DeepSeek V4 Flash有13个提供商,缓存读取价格从原价的20%到50%不等。但DeepSeek自己提供的版本,缓存读取价格只有原价的2%。
2%!
DeepSeek V4 Pro更夸张,缓存读取只要0.83%。
这是因为DeepSeek从V4开始实现了新的KV缓存方案,作为模型的创造者,它最能利用自己的创新。这些成本优势直接传递给了用户。
“标价”已经没什么意义了
说白了,LLM的标价现在就是个参考数字。
实际使用中98%的token是输入,而输入token又会被大量缓存。真要看成本,得看缓存命中率和缓存折扣。OpenRouter现在在模型页面上加了一个”effective price”表格,根据缓存命中情况实时更新。DeepSeek V4 Flash通过DeepSeek自己提供时,实际输入价格是0.034——差不多两倍。
所以Hy3并不是最便宜的。至少有缓存的情况下不是。
然后呢
说说我自己从这件事里琢磨出来的几件事吧。
benchmark越来越不能当饭吃了。Hy3跑分一般,但用量碾压了跑分更好的模型。用户用脚投票,投出来的结果跟学术benchmark完全不同。当然用量大不代表质量好,可能只是某个特定场景下刚好合适。但这个信号很明确:benchmark测的东西,跟用户真正在乎的东西,已经脱节了。
LLM定价也变成了一个复杂的经济学问题。标价、缓存折扣、缓存命中率、提供商差异……这些因素叠在一起,实际成本可能跟标价差出一个数量级。选模型不能只看标价了,得算实际账。
中国公司的定价策略确实猛。DeepSeek的缓存折扣能做到2%,这背后是技术优势也是市场策略。在agentic AI竞争白热化的2026年,这种定价能力是很实在的护城河。当然也有人担心数据安全——DeepSeek在OpenRouter上的数据政策显示prompt training默认开启,这个得自己权衡。
还有就是订阅制和API制的竞争。Claude Code、Codex这些订阅服务如果你能用满额度,确实划算。但DeepSeek V4 Flash这种超低价API提供了另一种可能——不用锁进订阅,按需付费。这对整个定价体系都是一种制衡。
回到Hy3的谜团,Max Woolf猜测可能是某个没公开的大型应用在用它做数据处理。我觉得这个判断挺合理。不过OpenRouter的数据也显示,用户切换模型的成本很低——一旦大家发现DeepSeek V4 Flash的缓存价格这么香,Hy3的用量大概率会掉。
2026年的LLM市场,定价和生态的竞争比模型能力本身更有看头。跑分谁都能刷,但缓存经济学、提供商生态、用户切换成本这些”软实力”,才是真正决定市场份额的东西。