昆仑万维天工大模型推理能力大幅超过 GPT-3.5 和 LLaMA2
9月16日,在权威推理榜单Benchmark GSM8K 测试中,昆仑万维完全自研的天工大模型以 80% 的正确率脱颖而出,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%),“这标志着天工的推理能力达到全球领先,接近GPT-4”。 与此同时,在MMLU数据集测试中,天工以65%准确率超越了LLaMA-65B的63.4%;在C-EVAL数据集测试中,天工以65%准确率超越了GPT3.5的54.4%。在HumanEval数据集测试中,天工以37.2%的准确率超过了PaLM-540B(26.2%)、LLaMA-65B(23.7%)、LLaMa2 -70B(30.5%)。 “推理能力对于判断一个基座大模型是否“聪明”至关重要。在GSM8K、MMLU、C-EVAL、HumanEval四项数据集测试中,天工大模型均获得较高的正确率,表明天工大模型的通用能力很强,核心性能均达到了国际领先水准。” GSM8K英文数据集测试是目前全球公认的评判基座大模型推理能力的权威标准。GSM8K包含8500个高质量的数学问题。这些问题被分为7500个训练问题和1000个测试问题,一般需要2到...

