用眼睛看。
就是字面上的意思用眼睛看。
我属于第一波玩到的,先给大家一个直观的印象,Groq到底有多快。
目前Groq只能选Llama的70b,和Mixtral的MoE,那我选7*8的这个MoE模型来实验。
这么好些字大概花了不到1秒,流式响应,其实是不是流式已经没那么重要了
,然后看每秒Token数525!!!
如果大家没什么概念可以做一下对比,GPT-3.5大概20几个,我用本地的卡做KV cache,然后Vllm拿Alpaca做推理,大概极限能冲到30几个Token...
是的,它就是这么快。
刚出的时候,Ross顶着TPU发明者的身份,被很多无良媒体解读说Groq是LPU,是Google TPU的同架构,然而两者根本一点关系也没有,TPU就别蹭了,TPU可以理解为更接近于GPU的架构,(TPU也根本做不到这么快,慢10倍都不止)LPU更像是Dojo,是空间计