印度版“DeepSeek”大模型 Alpie:性能超越 GPT-4o、Claude 等
印度 169PI 公司最近发布的 Alpie 大模型被称为印度版的DeepSeek,目前已经开源在多个平台,并开放了API。 这款模型只是一个320亿参数的小模型,主打4bit量化,但AI榜单上表现非常强,GSM8K数学榜单上超过了DeepSeek V3,跟GPT-4o、Qwen 2.5-30B一个档次,略低于Cluade 3.5。 在SWE软件工程榜单上则力压其他大模型,包括Claude 3.5等,表现非常强。BBH榜单上也超过了GPT-4o、Qwen 2.5、Calude 3.5等大模型,略低于DeepSeek V3。 不过 Alpie 的争议也不少,因为它其实不是印度工程师自己训练出来的大模型,而是DeepSeek-R1-Distill-Qwen-32B二次深度开发的,是中国开源大模型基础上蒸馏+量化出来的。 这样做的好处不少,比如大幅降低了成本,只有GPT-4o的1/10,显存占用降低了75%,16-24GB的显卡就能流畅运行。
