只有「卷」起来生态才有活力。
7 月 14 日晚间,智谱 AI 和清华 KEG 突然发布公告,称为了更好地支持国产大模型开源生态,经智谱 AI 及清华 KEG 实验室决定,自即日起 ChatGLM-6B 和 ChatGLM2-6B 权重对学术研究完全开放,并且在完成企业登记获得授权后,允许免费商业使用。
而此前,根据智谱 AI 的官网, ChatGLM2-6B 不限实例+不限推理或微调工具包的私有化报价为一年 30 万。
突然的免费让人非常费解,不过看到「免费」这个词,很难不让人联想到百川智能一个月前发布的 Baichuan-7B 开源免费可商用大模型,以及 7 月 10 日发布的 Baichuan-13B 开源免费可商用大模型。
由此来看,智谱 AI 本次免费的举动似乎有了合理的解释。
从 meta 开源至今,市面上开源的模型并不算少,目前国内的大模型有近一半选择了开源的方式,但总体来看,目前国内能够做到可应用程度的只有百川和智谱两家,其他大模型在实用性方面距离这两家都还有不小差距。因此,大模型开源战场,现在完全变成了百川和智谱神仙打架的局面。
作为 ChatGPT 爆火之后,国内最早推出的开源大模型,3 月初当业内还在争论 ChatGTP 究竟是不是人工智能的奇点,值不值得入局大模型的时候,ChatGLM-6B 就已经发布,彼时国内上不存在能够与之一战的产品,它甚至比号称第一家发布大模型大厂的百度都还早了两天时间。凭借着先发优势,ChatGLM2-6B 在开源社区积累了众多用户。
此外,ChatGLM-6B 在 MMLU、Ceval、GSM8K 等数据集上的评测表现优异,相比同参数级别的模型性能十分强悍,相当长的一段时间内,ChatGLM-6B 都是 HuggingFace Trends 排行榜上霸榜的存在。也正因为这种人无我有,人有我优的能力,ChatGLM-6B 才有了收费的本钱。
过去的几个月里,ChatGLM-6B 宛如武林盟主一般的存在,睥睨四方均无一合之敌。本来凭借先发优势,ChatGLM-6B 原本可以一直如此持续下去,将领先的技术能力持续转化为收入。
但没想到的是,百川智能作为一位后起之秀迅速崛起,成立仅仅两个月便发了开源免费可商用大模型 Baichuan-7B,并且上线即巅峰,仅仅用 6 天时间便登上了 HuggingFace Trends 的榜首,将 ChatGLM-6B 挤下了第一的位置。
而在 C-eval、AGIeval 和 Gaokao 等多个榜单的评测中,Baichuan-7B 均获得了优异成绩,远超包括 ChatGLM-6B 在内的其他同规模参数的大模型。
而智谱的反应也很快,在 Baichuan-7B 发布后十天,便 将 ChatGLM-6B 全面升级推出了 ChatGLM2-6B ,再次掌握了主动权。
评测结果显示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、Ceval(+33%)、GSM8K(+571%)、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。
可以说,在开源大模型之战的第一局里,百川智能出其不意闪电出击,以免费的招式突袭智谱 AI,确实打了智谱一个措手不及,不过智谱反应迅速,应对得体,很快便扳回一城,双方互有胜负。
发布 ChatGLM2-6B 之后的智谱本以为能长出一口气,安稳一下心神。没想到的是,在其发布后仅仅 16 天,百川智能便又推出了百亿级别参数的大模型 Baichuan-13B,同样还是开源,同样还是免费可商用。
并且,近期国内最权威的中文模型评测机构之一 SuperCLUE,基于 SuperCLUE-Open 测评基准,针对现有的几个百亿开源模型进行了 1200 道题的测评。在评测中 Baichuan-13B 化身六边形全能战士,各项能力均大幅领先同规格开源模型产品。
在当前的生成问题与多轮评测基准中,Baichuan-13B 相对于 GPT-3.5、Claude 基础版已经基本相当。相对于国内的百亿级开源模型,Baichuan-13B-chat 具有很大的领先性(超过了 20 点以上)。
同样的招式,再用一次,不同的是力道更大了。面对加量之后的 Baichuan-13B,智谱的 ChatGLM2-6B 属实没有了招架之力,毕竟免费的这么好用,收费的哪还会有人垂青?无奈之下,免费开源已经成了唯一的选择。
天下武功唯快不破,开源大模型之战的第二局,百川并未改变免费的招式,但却用研发速度占到了便宜,目前 Baichuan-13B-Chat 在 Hugging Face 上的下载量已经达到了 69.8 万次。
目前,行业内的共识是,百亿规模是大模型商用的最低门槛。因为如果大模型想要达到可以商用的状态,大模型在特定任务上的能力必须要有显著的提升。目前的研究表明,就 In Context Learning 而言,只有达到 百亿规模,大模型的能力在一些特定任务中才可能涌现。
同时,虽然理论上讲模型的规模越大其各项性能便会越强大,但模型做大之后,却又带来产业落地方面的问题。比如更大的模型通常意味着更大的算力消耗,更高的部署成本,这让一些垂类领域,如学校,医院等场景很难负担得起。因此百亿规模的可商用开源大模型对于大模型生态的构建而言便有了重要意义。
换言之,6B、7B 参数级别的竞争只是高手过招之前的互相试探而已,真正决定谁能引领整个开源大模型争斗的胜负手还要看百亿参数级别大模型的表现。
目前百川智能的表现十分亮眼,上线仅六天时间 Baichuan-13B-chat 就已经达到了 69.8 万的下载量,在百亿参数级别已经处于领跑的状态。
反观智谱,目前其官网显示 ChatGLM-12B 本地私有化的定制年费为 120 万元,那么面对全面进击的百川,智谱要如何应对?是再次免费还是另有高招?让我们拭目以待。
不过无论结果如何,这些都是货真价实,真实可以用的免费可商用基础大模型,而非为了评测而针对性优化的实验室产品,不管最后谁胜出,都是国内大模型应用生态的福音,对国内的开源生态都有很好的引领作用。
从另一视角来看,大模型的发展,确实也需要你追我赶,龙争虎斗,只有「卷」起来生态才有活力。现在百川和智谱已经在开源大模型领域卷出了新高度,希望未来能有更多的公司能参与进来,共同把中国大模型这个领域做的更好。