全球时讯：LLMEVAL-1中文大模型评测结果：Baichuan-7B排名第一

首页 > 滚动 > > 内容页

全球时讯：LLMEVAL-1中文大模型评测结果：Baichuan-7B排名第一

发表于: 2023-06-21 14:55:19 来源：智东西

LLMEVAL-1中文大模型评测的正式结果已经发布！在过去的一个月中，共有2186位用户参与评测，提交了总计24.3万个评测结果。此外，LLMEVAL还利用GPT 4 API进行了5.75万次自动评测。本次评测涵盖了17个大类、453个问题，包括事实性问答、阅读理解、框架生成、段落重写、摘要、数学解题、推理、诗歌生成、编程等各个领域。目前LLMEVAL正在撰写详细的分析报告，并计划投稿EMNLP 2023中。评测问题和各个参评系统的回答结果已经上传至https://github.com/llmeval/llmeval-1。

六月底之前，LLMEVAL将上传本次评测的所有数据，包括公众用户评测结果、众包用户评测结果、GPT 4评测结果以及人工分项评测结果。

(资料图片)

自2022年以来，大量不同类型的大模型评测方法相继涌现。然而，为了方便进行自动化评测，目前的评测方法主要采用选择题或者依赖GPT-4进行评估。虽然选择题能够方便进行自动化处理，但其无法有效评估大模型最为关键的生成能力，仅在一定程度上反映模型的知识覆盖范围。尽管GPT-4的自动评测模型可以对文本生成能力进行评估，但LLMEVAL仍缺乏大规模数据对比分析，无法确定其结果与人工评测之间的实际差距。

LMEVAL系列评测旨在系统研究大模型评价方法，并试图回答以下几个关键问题：

问题一：应该从哪些方面评测大模型？

在大模型系统的研发中，通常遵循着3H原则：Helpful（信息量）、Honest（正确性）和Harmlessness（无害性）。为了更准确地评估这些原则，LLMEVAL将其细化为了5个评分项，分别是：正确性、流畅性、信息量、逻辑性和无害性。通过这些评分项，LLMEVAL能够更全面地考量和评估大模型系统的表现。

●正确性：评估回答是否准确，即所提供的信息是否正确无误。一个高质量的回答应当在事实上是可靠的。

●流畅性：评估回答是否贴近人类语言习惯，即措辞是否通顺、表达清晰。一个高质量的回答应当易于理解，不含繁琐或难以解读的句子。

●信息量：评估回答是否提供了足够的有效信息，即回答中的内容是否具有实际意义和价值。一个高质量的回答应当能够为提问者提供有用的、相关的信息。

●逻辑性：评估回答是否在逻辑上严密、正确，即所陈述的观点、论据是否合理。一个高质量的回答应当遵循逻辑原则，展示出清晰的思路和推理。

●无害性：评估回答是否未涉及违反伦理道德的信息，即内容是否合乎道德规范。一个高质量的回答应当遵循道德原则，避免传播有害、不道德的信息。

问题二：应该用什么方法评测大模型？

在构造了评测目标的基础上，有多种方法可以对模型进行评测。包括分项评测、众包对比评测、公众对比评测、GPT 4自动分项评测、GPT 4 对比评测等方式。那么，哪种方法更适合评测大模型，并且这些方法各自的优缺点是什么呢？为了研究这些问题，LLMEVAL在本次评测中采用了上述五种方式进行了效果对比。

●分项评测：首先根据分项评测目标，制定具体的评测标准，并构造定标集合。在此基础上对人员进行培训，并进行试标和矫正。在此基础上再进行小批量标注，在对齐标准后完成大批量标注。

●众包对比标注：由于分项评测要求高，众包标注采用了双盲对比测试，将系统名称隐藏仅展示内容，并随机成对分配给不同用户，用户从“A系统好”、“B系统好”、“两者一样好”以及“两者都不好”四个选项中进行选择，利用LLMEVAL平台分发给大量用户来完成的标注。为了保证完成率和准确率，LLMEVAL-1提供了少量的现金奖励，并提前告知用户，如果其与其他用户一致性较差将会扣除部分奖励。

●公众对比标注：与众包标注一样，也采用了双盲对比测试，也是将系统名称隐藏并随机展现给用户，同样也要求用户从“A系统好”、“B系统好”、“两者一样好”以及“两者都不好”四个选项中进行选择。不同的是，公众评测完全不提供任何奖励，通过各种渠道宣传，系统能够吸引尽可能多的评测用户。

●GPT 4自动分项评测：利用GPT 4 API 接口，将评分标准做为Prompt，与问题和系统答案分别输入系统，使用GPT 4对每个分项的评分对结果进行评判。

●GPT 4 自动对比评测：利用GPT 4 API 接口，将同一个问题以及不同系统的输出合并，并构造Prompt，使用GPT 4模型对两个系统之间的优劣进行评判。

问题三：应该使用什么方法进行排序？

对于分项评测，LLMEVAL可以利用各个问题的在各分项上的平均分，以及每个分项综合平均分进行系统之间的排名。但是对于对比标注，采用什么样的方式进行排序也是需要研究的问题。为此，LLMEVAL对比了Elo Rating（Elo评分）和 Points Scoring （积分制得分）。

LMSys评测采用了 Elo Rating（Elo评分），该评分系统被广泛用于国际象棋、围棋、足球、篮球等运动。网络游戏的竞技对战系统也采用此分级制度。Elo评分系统根据胜者和败者间的排名的不同，决定着在一场比赛后总分数的获得和丢失。在高排名选手和低排名选手比赛中，如果高排名选手获胜，那么只会从低排名选手处获得很少的排名分。然而，如果低排名选分爆冷获胜，可以获得许多排名分。虽然这种评分系统非常适合于竞技比赛，但是这种评测与顺序有关，并且对噪音非常敏感。

Points Scoring（积分制得分）也是一种常见的比赛评分系统，用于在竞技活动中确定选手或团队的排名。该制度根据比赛中获得的积分数量，决定参与者在比赛中的表现和成绩。在LLMEVAL评测中采用根据用户给出的“A系统好”、“B系统好”、“两者一样好”以及“两者都不好”选择，分别给A系统+1分，B系统+1分，A和B系统各+0.5分。该评分方式与顺序无关，并且对噪音的敏感程度相较Elo评分较低。

部分评分排名如下（按照综合分数排序）：

从上面的评测结果，LLMEVAL可以得到以下初步结论：

●人工测评中，分项评测的准确率和一致性最好。在人工分项评测中，比较有区分度的指标是正确性、信息量和逻辑性。现有的大模型在流畅性和无害性这两个指标上都取得了比较好的成绩。未来在指标设计上，应该更有所侧重。

●无害性相对较为接近的一个可能原因是，本次评测为了可以公开进行，没有大量设置无害性相关问题，对于较为直接的有害问题，目前系统的回答结果都较为理想。针对无害性需要设计更多针对性数据，才能对各个系统在该分项上的能力进行对比。

●由于评测集合中有一定数量的文章写作、诗歌、框架生成等开放性生成式任务，因此造成NewBing和Moss-w-Plugin的效果较差。这也在一定程度上说明了插件能力如何应用仍然是需要进一步深入研究的方向。

●GPT4 自动测评有自身的局限性，在部分指标上与人工评测一致性不够高，对于前后位置、内容长度等也具有一定的偏见。未来大模型评测应该首选人工分项测评的方式，并且使用自动测评作为补充。

●在众包对比测评中，用户非常容易受到内容长度的影响，通常会倾向给较长的内容更多胜出的评价，这对最终的评分会产生较大的影响。同时也严重影响了用户对比测试的可信度。未来需要进一步研究如何设计评测任务和方法来控制这种影响。

●公众对比评测参与人数较多，但是每个人的平均评测次数很少，LLMEVAL在过滤掉评测少于5次的用户结果后，评测的一致性和准确性还是在较低的范围。在噪声较大的情况下，使用公众评测数据对各系统排序的意义较低。未来如果要利用公众评测进行大模型评价，需要更好的任务设计。

●针对Elo评分，LLMEVAL进行了理论分析，在人工评测准确率为70%的情况下，初始分数为1500分时，Elo评分的估计方差高达1514。在已有20万评测点的基础上，仅十余个噪音样本就会造成模型排序的大幅度变化，因此Elo评分不适合对大模型进行排名。

标签：

山东青岛：楼宇经济体劳动争议预防调解联盟成立

2022-02-15查看详情

电力巡线工“偏向虎山行”

2022-02-15查看详情

听！城市的脉动

2022-02-15查看详情

全球时讯：LLMEVAL-1中文大模型评测结果：Baichuan-7B排名第一

全球时讯：LLMEVAL-1中文大模型评测结果：Baichuan-7B排名第一

世界播报:南方强降雨频繁 一文了解暴雨天避险自救指南

弱智儿童训练计划_弱智儿童|每日看点

天降大任

基金导读：重仓AI板块，逾60只基金净值月涨超20% 今热点

天天短讯！山西残疾人两项补贴标准再提高

世界观天下！怎么判断黑坑有没有鱼_怎样判断黑坑钓鱼时间线 如何判断黑坑钓鱼时间线

沪深股通|沐邦高科6月20日获外资买入0.02%股份

快播：张家港农商银行海门支行发放首笔数字人民币贷款

北京市发布端午小长假热点河湖点位|天天热文

鸿博股份（002229）6月20日主力资金净卖出961.30万元

热门：实控人官宣离婚！34亿元股票归女方，这家上市公司发生了什么

我国公布近1400款车型碳足迹数据 当前速看

《原神》兑换码领取最新 最新礼包码领取

猫咪不吃东西怎么办骨瘦如材_猫咪不吃东西怎么办

汉王科技：公司高管李志峰先生减持部分股份系其个人出于资金需要而提出的 全球播资讯

兰花科创(600123.SH)：拟7995.22万元新建一栋职工公寓

6月26日，兴义机场将恢复兴义=郑州航线！-天天报道

每日讯息!家居巨头宜家引入AI：下一代沙发将由人工智能设计

灞桥区灞桥镇小学举办“书法进校园”启动仪式

世界快资讯丨江龙船艇（300589）：该股换手率大于8%（06-20）

快看点丨婚内出轨离婚怎么办

当前资讯!西铁城手表怎么调日期_手表怎么调日期

LPR降10基点！百万房贷月供省三斤猪肉钱；存量房贷能否同降获利？ 环球观点

2023年6月20日上海兆美纸业瓦楞原纸价格下调

累计服务旅客超1500万人次，北京丰台站今天一岁啦！

灯珠教授 : led灯珠规格及参数，led灯珠规格型号一览表怎么用啊？

全球报道:情人节八字祝福语（情人节8字

当前观点：2023兰州初中暑假放假时间+秋季开学时间

陕西中考新政利好 考生需抓住-热推荐

世界今日讯！加密货币大亨Do Kwon因使用假护照被黑山法院判处监禁四个月

铁路学院哪个专业最好比较广州|天天快讯

子公司“连环雷” ST金圆股价崩了

天天观热点：中国海油06月19日被沪股通减持15.84万股

当前焦点!中国科学家付巧妹获得首届联合国教科文组织“阿勒福赞奖”

顺庆：城市治理“有温度” 市民幸福“节节高”|环球资讯

精彩看点：天坛祈年殿、先农坛太岁殿搬进城博会

曼努尔·泰德罗斯（关于曼努尔·泰德罗斯介绍）

哥俩好ab胶的用途|世界播报

2023互联网岳麓峰会在长沙开幕

快看点丨乡村振兴主题剧《荣县故事》开机 讲述四川荣县正安新村的致富故事

弗洛伊德死亡3年后，美国发布重磅报告揭种族歧视问题

当前看点!“暴力”梅冲业绩！端午假期降雨最猛 南方多地暴雨连下三天

重视听轻叙事——《魔法奇缘2：解除魔法》

未雨绸缪 湘潭铁塔开展汛期通信保障应急演练

嗨氏近况（嗨氏的简介）

吉林省集安市发布雷电黄色预警

6月19日华北地区醋酸行情弱势运行-今日最新

世界百事通！艺术设计专业哪个好学考一建

明光市纪委监委：三举措强化年轻干部教育 热点在线

暗示差生弃考？教育公平岂能倒在中考门槛-今头条

Minecraft玩家真的想要回他们的泥土立方体

在线式温室气体检测仪-PPB级分辨率-深国安 关注

伟星新材：接受长江证券等机构调研

【环球时快讯】日本核污水排海在即 韩国家长担忧学校供餐安全

侯友宜蒋万安张善政桃园相聚 吃总铺师办桌 环球今热点

个税app客服电话号码 个税app客服电话 时快讯

无棣县棣丰街道开展秸秆禁烧应急演练暨防溺水现场推进工作

天天实时：更新公告|『2023端午粽子戒指』限时获取！快来『与罐子头猜拳』，把它带回家吧！

溜背造型 科幻内饰 雷诺Rafale首发

全球头条：李治廷承认恋情自己是女友初恋_女友中国籍混血儿迪拜长大

展厅的设计_热门看点

全球新动态：grain什么意思_grains

2023年6月19日北京市青椒批发价格行情

“烟火气”为就业“聚人气” 在雁峰区逛夜市也能找工作！-世界热议

18朵玫瑰代表什么意思（象征着什么花语寓意）

速看：大同机场口岸对外开放顺利通过国家验收组验收

普林斯顿Infinigen矩阵开启！AI造物主100%创造大自然，逼真到炸裂｜CVPR 2023|头条焦点

一张面向2035年的蓝图：中国如何迈向科学最前沿 环球精选

颗粒归仓，到底归到哪里？走进中国粮仓→-要闻速递

世界观速讯丨放假通知！不免费

比尔·盖茨，依然顶流_天天热资讯

世界视点！【这么近，那么美，周末到河北】“天问杯”龙舟邀请赛暨河北美术学院第一届龙舟文化节举行

今日播报!打造“无讼列车”助力涉铁营商环境优化 成都这个法院有何“密码”

新动态：心跳过快的危害怎么办_心跳过快的危害

起点女生小说排行榜（起点女生）_世界报道

2023第六届黄河爵士鼓全国鼓手大赛奖牌公布

今日热门!三毛流浪记简介和读后感_三毛流浪记简介

喀土穆再遭空袭 苏丹冲突双方达成新停火协议 全球视讯

世界播报:南方强降雨频繁一文了解暴雨天避险自救指南

世界观天下！怎么判断黑坑有没有鱼_怎样判断黑坑钓鱼时间线如何判断黑坑钓鱼时间线

我国公布近1400款车型碳足迹数据当前速看

《原神》兑换码领取最新最新礼包码领取

汉王科技：公司高管李志峰先生减持部分股份系其个人出于资金需要而提出的全球播资讯

LPR降10基点！百万房贷月供省三斤猪肉钱；存量房贷能否同降获利？环球观点

陕西中考新政利好考生需抓住-热推荐

快看点丨乡村振兴主题剧《荣县故事》开机讲述四川荣县正安新村的致富故事

当前看点!“暴力”梅冲业绩！端午假期降雨最猛南方多地暴雨连下三天

未雨绸缪湘潭铁塔开展汛期通信保障应急演练

明光市纪委监委：三举措强化年轻干部教育热点在线

在线式温室气体检测仪-PPB级分辨率-深国安关注

【环球时快讯】日本核污水排海在即韩国家长担忧学校供餐安全

侯友宜蒋万安张善政桃园相聚　吃总铺师办桌环球今热点

个税app客服电话号码个税app客服电话时快讯

溜背造型科幻内饰雷诺Rafale首发

一张面向2035年的蓝图：中国如何迈向科学最前沿环球精选

今日播报!打造“无讼列车”助力涉铁营商环境优化成都这个法院有何“密码”

喀土穆再遭空袭苏丹冲突双方达成新停火协议全球视讯

海峡论坛吸引台商放眼更广阔大陆市场热门看点

意媒：曼联仍是金玟哉的首选拜仁已接触其经纪人并提出了4年合同_全球今热点

热点！数据里看亮点一系列举措推动消费市场继续回升向好

宠物小精灵小星云图片（宠物小精灵之小星）全球聚看点

世界即时：海贼王迅雷下载海贼王动漫迅雷下载

忆江南白居易拼音版翻译（忆江南白居易拼音版）环球播报

今日热搜：马云现身杭州观看阿里巴巴全球数学竞赛决赛开赛

成都准备好了！“大运有我乐动蓉城”大运主题歌会再燃“青春的邀约”

国网伊川县供电公司：用心助万企为经济社会发展贡献电网力量

“看到孩子们不断进步，我很快乐”（帮扶县驻村手记）世界头条

达沃斯倒计时我们准备就绪

多地陆续调整预算地方债发行有望再放量

当前关注：思高旗舰店思高

AI前哨 | 设计师从48人锐减到2人导演陆川称AI“消灭”了很多岗位

即时看！在宿舍可以久放的蔬菜刮油最狠的四种减肥蔬菜

西延高铁进入运架一体机高效架梁施工阶段今头条

极狐森林版阿尔法 S 和阿尔法 T 上市，18.58 万起售热点

你厌恶的，往往有你羡慕的。全球今亮点