<output id="4ynd4"></output>
  • <track id="4ynd4"></track>
    1. <td id="4ynd4"></td>
    2. <acronym id="4ynd4"><label id="4ynd4"><listing id="4ynd4"></listing></label></acronym>

    3. 七款AI大模型“高考成績” 前三名文科過一本

      發布時間:2024-07-19 來源:互聯網

      IT之家7月18日消息,上海人工智能實驗室17日公布了針對7個AI大模型的高考全科目測試結果,據大模型開源開放評測體系“司南”相關負責人介紹,“當前大模型仍存在很大的局限性。組織AI大模型‘參加高考’,目的是評測當前大模型的真實水平,找準問題,持續推進技術進步?!?/p>

      七款AI大模型“高考成績” 前三名文科過一本

      測試結果顯示,書生?浦語2.0系列文曲星大模型(浦語文曲星)、阿里通義千問大模型Qwen2-72B以及GPT-4o再次包攬文、理科前三甲;前三名AI“考生”的文、理科成績分別超過了“一本”“二本”線(以今年高考人數最多的河南省的分數線為參考)。

      從官方提供的圖片來看,此次參與“高考”的大模型還包括來自零一萬物的 Yi-1.5-34B、來自通義千問的 Qwen2-57B、來自智譜的GLM-4-9B 和法國 AI 初創公司Mistral旗下的Mixtral 8×22B。

      據介紹,此次評測具備如下特征:

      全卷考試:進行全卷評分,而不只針對單一題型,且包括帶圖的高考題

      考前開源:評測覆蓋的開源模型均為今年高考前開源的模型,排除泄題的可能性

      老師打分:邀請有高考閱卷經驗的老師打分,確保評分和高考盡量一致

      完全公開:生成答案的代碼、模型答卷、評分結果完全開源

      在增加綜合科目的基礎上,Qwen2-72B、GPT-4o、浦語文曲星包攬文、理科前三甲。阿里通義千問大模型Qwen2-72B以546分的成績榮獲AI高考“文科狀元”,浦語文曲星則以 468.5分成為理科第一名,分別超過了“非開源國際插班生”GPT-4o(文科531分,理科467分)。同為國外機構發布的Mixtral8x22B平均得分最少,弱于國內大模型的高考表現。

      七款AI大模型“高考成績” 前三名文科過一本

      七款AI大模型“高考成績” 前三名文科過一本

      閱卷老師們一致認為,大模型與真人考生仍存在差距,雖然對于基礎知識的掌握表現出色,但在邏輯推理和知識靈活應用方面,大模型仍然差強人意。具體而言,在作答主觀題時,大模型往往無法完整理解題干,不明白代詞指向,結果導致答非所問;解答數學題時,解題過程機械且邏輯性差,對于幾何題,常出現與空間邏輯相違背的推斷;對物理、化學實驗理解膚淺,無法準確識別并運用實驗器材。

      此外,大模型也會偽造虛構內容,編造看似合理但實際不存在的詩句,或在存在明顯計算錯誤的情況下之后不反思,“硬著頭皮蒙”一個答案,均給閱卷老師帶來了困擾。

      根據上海人工智能實驗室上個月公布的AI高考全卷結果,Qwen2-72B、GPT-4o及書生?浦語2.0文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲,得分率均超過70%。大部分模型“考生”語文、英語科目表現良好,但數學方面仍有很大提升空間。

      本周熱門教程

      1
      國精產品一二三區區別在哪:揭秘國貨秘密,精準選購更優質的國貨!

      國精產品一二三區區別在哪:揭秘國貨秘密,精準選購更優質的國貨!

      2024/05/05

      2
      嫩葉草m碼和歐洲碼的區別,為您解惑購物困惑!

      嫩葉草m碼和歐洲碼的區別,為您解惑購物困惑!

      2024/05/11

      3
      CSGO暴躁少女的成就:游戲技藝之光

      CSGO暴躁少女的成就:游戲技藝之光

      2024/05/04

      4
      國精產品999國精產的獨特魅力,為您帶來卓越品質與滿意體驗

      國精產品999國精產的獨特魅力,為您帶來卓越品質與滿意體驗

      2024/05/17

      5
      蛋仔派對新賽季隱藏款皮膚有哪些-蛋仔派對新賽季隱藏款皮膚相關介紹

      蛋仔派對新賽季隱藏款皮膚有哪些-蛋仔派對新賽季隱藏款皮膚相關介紹

      2024/05/14

      6
      亞洲尺碼歐洲尺碼的對照:解析亞洲尺碼與歐洲尺碼的關系

      亞洲尺碼歐洲尺碼的對照:解析亞洲尺碼與歐洲尺碼的關系

      2024/05/12

      7
      在線CRM系統:提升企業客戶管理效率的利器

      在線CRM系統:提升企業客戶管理效率的利器

      2024/05/12

      8
      精品日產一匹二匹三匹2021:品質與創新的完美結合

      精品日產一匹二匹三匹2021:品質與創新的完美結合

      2024/05/04

      9
      揭秘三葉草GW4334:植物界的新寵

      揭秘三葉草GW4334:植物界的新寵

      2024/05/10

      10
      2對1初次體檢4:重要性和注意事項解析

      2對1初次體檢4:重要性和注意事項解析

      2024/05/04

      亚州另类欧美综合一区_开心婷婷丁香亚洲_国自产精品手机在线视拍_中文字幕国内精品久久人妻