SuperGLUE还是SuperCLUE,大模型评测榜单惊现“李逵李鬼”?
随着国内百度、阿里、讯飞等各大厂商陆续发布大语言模型,百模大战的态势愈演愈烈、一触即发。各类评测也纷纷登场,分析到底谁才是国产ChatGPT的“扛把子”。
评测榜单是技术圈常见的一个评估维度。不过,前提是榜单得是公开透明、且具有权威性,国内外行业巨头都参与并认可,榜单才具有公信力,否则就会成为一家之言,毫无说服力,甚至会诱导大众。近日,一份自称“中文通用大模型综合性评测基准SuperCLUE”发布,权威性待考证,存在三点较大疑问。
SuperCLUE而非SuperGLUE,啥啥分不清楚
众所周知,在国际NLP领域,有大名鼎鼎的数据集GLUE和SuperGLUE,非常权威,OpenAI、谷歌等的大模型都在上面评测,极大推动了NLP领域的发展。
热门文章