昆仑万维天工通用大模型推理能力大幅超过GPT-3.5和LLaMA2

发布日期：2023-09-19 来源：昆仑万维集团分享到：

一直以来，昆仑万维完全自研的天工大模型（以下简称“天工”）作为通用基座大模型，始终追求技术创新，致力于突破基座技术壁垒。9月16日，在权威推理榜单Benchmark GSM8K 测试中，天工以80%的正确率脱颖而出，大幅领先GPT-3.5（57.1%）和LLaMA2-70B（56.8%），这标志着天工的推理能力达到全球领先，接近GPT-4。

天工大模型不仅在推理性能上有着强大的竞争力，在MMLU、C-EVAL、HumanEval等三项数据集测试中也同样表现出色。在MMLU数据集测试中，天工以65%准确率超越了LLaMA-65B的63.4%；在C-EVAL数据集测试中，天工以65%准确率超越了GPT3.5的54.4%。在HumanEval数据集测试中，天工以37.2%的准确率超过了PaLM-540B（26.2%）、LLaMA-65B（23.7%）、LLaMa2 -70B（30.5%）。

根据公开测试数据搜集整理

推理能力对于判断一个基座大模型是否“聪明”至关重要。在GSM8K、MMLU、C-EVAL、HumanEval四项数据集测试中，天工大模型均获得较高的正确率，表明天工大模型的通用能力很强，核心性能均达到了国际领先水准。

01 天工多项数据集测试均表现优秀

在上述几个数据集里，GSM8K英文数据集测试是目前全球公认的评判基座大模型推理能力的权威标准。

GSM8K包含8500个高质量的数学问题。这些问题被分为7500个训练问题和1000个测试问题，一般需要2到8个步骤来解决。这些问题的解决主要涉及算术运算。GSM8K数据集的目的是用来测试推理多步数学问题的能力。研究人员通常使用GSM8K来评估大型语言模型在解决英文数学问题时的性能表现。

目前国内外多个大模型都进行了GSM8K的测试。例如，微软与中国科学院在2023年8月联合发布了一项关于WizardMath的研究结果，该研究主要在 GSM8K和MATH这两个常见的数学基准上测试了多个模型的性能，涵盖了大量主流模型，参与测试的模型包括：

闭源模型：OpenAI 的 GPT-3、GPT-3.5、ChatGPT、GPT-4，谷歌的 PaLM 2、PaLM、 Minerva，Anthropic 的 Claude Instant、Claude 1.3、Claude 2， DeepMind 的 Chinchilla；

开源模型：Llama 1、Llama 2、GAL、GPT-J、GPT-Neo、Vicuna、MPT、Falcon、Baichuan、ChatGLM、Qwen 和 RFT

在这项研究中，最后这些模型的得分如下：

研究论文地址 https://github.com/nlpxucan/WizardLM/blob/main/WizardMath/WizardMath_Paper.pdf

据论文，Google PaLM 的正确率不超过56.5%，LLaMA2不同参数规模的正确率最高不超过56.8%，GPT-3.5 的正确率为57.1%，GPT-4的正确率为92%。

而天工的GSM8K测试正确率为80%，这代表天工大模型整个基座的推理能力在同等规模大模型中出类拔萃，大幅超过GPT-3.5和LLaMA2-70B，达到全球领先水平。在上述研究中，WizardMath作为目前数学垂域最好的开源模型，GSM8K正确率仅比天工高1.6%。

除了GSM8K外，天工参与评测的其他几个数据集在业内也相当权威。

MMLU由加州大学伯克利分校等知名高校共同打造，集合了科学、工程、数学、人文、社会科学等领域的57个科目，主要目标是对模型的英文跨学科专业能力进行深入测试；C-EVAL评测基准由上海交通大学、清华大学以及爱丁堡大学联合创建，是一个面向中文语言模型的综合考试评测集，覆盖了52个来自不同行业领域的学科；HumanEval是OpenAI为了评估Codex模型的有效性而创建的数据集，通过HumanEval研究人员可以对Codex模型进行评估，并了解其在代码生成方面的准确性和效果。

这几个都是业界公认的用来评估模型在语言理解、推理、算法和数学等方面核心性能的重要数据集，天工的得分都相对较高。

除了英文数据集，天工大模型在小米的中文开源数据集CMATH测试中也表现良好。

CMATH数据集包括1700个小学水平的数学应用题和详细的注释，旨在提供一个基准工具，评估当前流行的大模型的数学能力对应小学数学哪一年级的水平，在这份测试集中天工大模型的平均准确率为76.4%高于ChatGPT的平均准确率74.8%，并全面领先其他主流大模型，这充分表明天工大模型在中文场景的数理能力表现也十分优秀。

天工大模型之所以表现如此优秀，除了积累了大量的高质量语料外，对多数据源的高效融合策略，不同语言间的能力迁移以及如何更好的激发基座逻辑推理能力有着深刻的见解。

02 天工的‍推理能力超过GPT-3.5

天工的推理能力取得全球领先的水平，超过了GPT-3.5和LLaMA2，那让我们来看看天工和GPT-3.5在GSM8K测试中的具体表现。