三级久久三级久久_精品一区二区三区在线观看视频_黄色在线观看网站_日韩中文视频_成人观看网址_精品日韩免费_九九**精品视频免费播放_久久久久成人黄色影片

當前位置    :     網站首頁    /     事件 > 詳情頁

誰最“聰明”:大模型為何需要測評

2023-08-21 21:12:44來源:北京商報

近日由北京商報社、深藍媒體智庫主辦的“大模型見真章”AI主題沙龍上,360智腦產品資深專家葛燦輝在做“360智腦認知型通用大模型”的產品分享時,引用了三個測評結果,其中一個來自第三方評估機構SuperCLUE。

聽到這個引用,臺下元語智能聯合創始人兼COO朱雷笑了笑。朱雷的另一個身份,便是SuperCLUE聯合發起人。葛燦輝顯然不知道這一層關聯。

國產大模型競賽如火如荼,好像每一個大模型都很牛,但具體牛在哪又始終縹緲,由此大模型測評應運而生。但這又可能注定是一件要“燒情懷”的事,它同樣面臨著“開源”還是“閉源”的兩難選擇,和刷題與競價排名的諸多爭議。


(資料圖)

武林大會

國產大模型又多一份測評,這次的狀元是訊飛星火。近日,《麻省理工科技評論》從研發和商業化能力、外界態度以及發展趨勢等維度全方位檢測大模型的能力,最終,訊飛星火認知大模型V2.0以81.5分的成績登頂,榮獲“最聰明”的國產大模型稱號。

8月15日,科大訊飛發布“訊飛星火認知大模型V2.0版本”,科大訊飛董事長劉慶峰介紹,從業界參考測試集上的效果對比來看,星火V2.0基于Python和C++進行代碼寫作能力已高度逼近ChatGPT,差距僅為1%和2%。

劉慶峰說,到10月24日星火大模型代碼能力全面超越ChatGPT,明年上半年將正式對標GPT4。

訊飛星火像是一個縮影。過去這段時間,大模型頻繁更新讓人眼花繚亂,動輒千億的參數、各種專業術語也讓人不明覺厲。但人們似乎很難找到一把統一的尺子,公平、客觀、直觀地感知大模型真正的效果,而不被紛雜的信息流所蒙蔽。

天使投資人、資深人工智能專家郭濤對北京商報記者分析稱,“大模型是一個非常復雜的系統,它由大量的數據和算法組成,在訓練和推理過程中需要考慮很多因素。對大模型進行測評可以幫助我們更好地了解模型的性能和特點、評估價值和意義、局限性和潛在風險等,從而為大模型的發展和應用提供有力支持”。

深度科技研究院院長張孝榮將測評形容為一場“武林大會”,要試試各家身手。他對北京商報記者分析稱,大模型涉及到龐大的參數和復雜的算法,對于性能和效果的評估十分重要。通過測評可以大致地了解大模型的性能、穩定性、準確性等內容,為用戶選擇合適的大模型提供參考。

測評開始補位。今年3月,真格基金以投資者的身份入場,設計了一套大模型測試集Z-Bench。高校也是測評的中堅力量,例如清華大學、上海交通大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集C-Eval。

有媒體報道,5月以來,10多家國內外多家調研機構、權威媒體和高校等發布大模型評測報告,包括新華社研究院中國企業發展研究中心發布的《人工智能大模型體驗報告2.0》、天津大學和信創海河實驗室發布的《大模型評測報告》、國際數據公司IDC發布的《AI大模型技術能力評估報告,2023》等。

難統一的標準

當該有測評成為共識,迎面而來的下一個問題就是,我們需要一個怎樣的測評。

《麻省理工科技評論》提到,評測使用的測試集包含600道題目,覆蓋了語言專項、數學專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共8個一級大類,126個二級分類,290個三級標簽,并針對問題的豐富性和多樣性做了優化。

此前IDC則在測評中將大模型分為三層,服務生態、產品技術以及行業應用,對每一層的能力進行測評,主要考察指標為算法模型、通用能力、創新能力、平臺能力、安全可解釋、大模型的應用行業以及配套服務和大模型生態等,具體包括36項細顆粒度的評估標準。

對于大模型測評的必要性,朱雷提到,模型測評基準是通用人工智能的基石,沒有測評就意味著沒有目標,很難準確地判斷究竟哪些做得好哪些做得不好,同時對于AI的安全性也無法把控。從國際視角上看,對于大模型的測評也是沒有絕對標準的,因為大模型發展太快了。但在國內要做出一個客觀公正的評測基準,也會遇到很多阻力。

北京市社會科學院副研究員王鵬對北京商報記者分析,目前大模型尚屬新興事物,國際上還沒有一個覆蓋面非常廣、能夠得到大家公允的評估方法或整套指標體系,需要加強國際合作,形成廣泛共識。

“但這也會面臨一定的問題,即大模型本身類型繁多,通用還是專用、垂類還是跨行業、偏技術還是偏應用等區別也會帶來一定的阻礙,因此更需要權威機構加強研究,盡快形成共識,促進技術進步和行業發展。”王鵬稱。

在他看來,一個合格的測評,應該由四個維度組成。首先是技術本身,包括穩定性、效率、效果等;其次是與行業的結合,在行業應用中是否有效果、成本是否可控、是否能夠形成商業閉環;再次還要考慮是否安全可控;最后要從社會及行業認知角度,了解其在行業中的關注度,畢竟“酒香也怕巷子深”。

張孝榮也提到,由于大模型涉及的領域和應用非常廣泛,不同領域、不同應用的大模型需要關注的指標和評估方法不盡相同。因此,針對具體應用領域和需求,不同機構和組織可能會提出不同的評估標準和方法?!氨M管沒有統一的標準,但測評的意義在于提供了一種評估和比較不同大模型性能和效果的方法,幫助用戶選擇適合自己需求的大模型?!?/p>

測評還是營銷

“測評的意義側重于營銷推廣”。張孝榮還提到了一個觀點。

葛燦輝在引用SuperCLUE測評結果的時候,提煉出了一句總結:“360智腦”多項能力位列國產大模型第一?!堵槭±砉た萍荚u論》的測評報告,傳播最多的也是“訊飛星火被評為中國‘最聰明’的大模型”。

更早些時候,刷屏的是百度。比如IDC的大模型報告中,“百度文心大模型3.5獲多項滿分”,清華大學新聞與傳播學院沈陽團隊發布的《大語言模型綜合性能評估報告》中,百度文心一言在三大維度20項指標中綜合評分國內第一,超越ChatGPT。

每每涉及榜單,榜首歸誰總是容易成為話題中心,從這個角度上看,測評本身或許就帶著些營銷的天然屬性。但也正是如此,延伸出了一些不容忽視的問題。

“SuperCLUE出6月榜單的時候,第一時間就有人指責我們是不是收了360的錢,但事實是,直到這次沙龍,我們與360智腦產品負責人才有了第一次接觸。”朱雷如此說道。

事實上,大模型測評同樣面臨著“開源”和“閉源”的兩難選擇。朱雷稱,大模型測評題集也有開源閉源之分,但開源的題目就會面臨受試者提前訓練進而刷分“打榜”的可能,而閉源的題目就會陷入到是否有暗箱操作乃至競價排名的爭議。

朱雷表示,SuperCLUE還是選擇了閉源的測評路線,但不是任何機構都可以閉源的,之所以公眾較為相信SuperCLUE的測評結果,主要還是基于過去四年CLUE社區對中文語言模型的貢獻和公信力。

據了解,CLUE開源社區發起于2019年,旨在建立科學、客觀、中立的AI評測基準,過去幾年CLUE社區分別建立了ZeroCLUE、FewCLUE等知名的語言模型評測基準,又于今年5月發布首個中文通用大模型綜合性評測基準SuperCLUE。

SuperCLUE分為SuperCLUE-Opt、SuperCLUE-LYB瑯琊榜以及SuperCLUE-Open三個不同維度的評測基準,相輔相成。其中SuperCLUE-Opt是首個中文通用大模型綜合性評測基準,聚焦客觀題;SuperCLUE-Open為首個中文通用大模型綜合性多輪開放域評測基準,聚焦主觀題;SuperCLUE-LYB瑯琊榜的定位則是中文大模型匿名對戰平臺,讓用戶參與投票。據介紹,SuperCLUE目前也是中文AI領域最完整的綜合性測評基準,同時也是罕見的“閉卷”考試。

“我們暫時還沒有找到折中的方法,所以決定先‘保密’,大模型廠商不知道我出了什么樣的問題,自然不好刷分。至于‘保密’帶來的黑盒化,目前來看還是一個兩者不可兼得的問題,但我們堅信自己的第三方中立性,評測的結論也是十分科學的?!敝炖追Q。

SuperCLUE以“月考”形式進行,每個月也會更新迭代,包括補齊缺失的維度、更新現有的測試題等?!艾F階段我們仍選擇以閉源的形式把測評摸清楚,建立比較健全的標準后可能會選擇部分開源,即便如此我們也會保證每次測評前廠商無法拿到相關的測試題,等到測試結果公布后再將題目放出,這樣外界可以根據題目進行復現,或許會減弱類似于競價排名的爭議?!敝炖追Q。

王鵬分析稱,任何一項評估或排名,都可能面臨一些問題,但這其實相當于一個“否定之否定”的過程。首先評估體系本身并不是完美的,需要不斷優化提升,應對大家可能產生的質疑。

其次,專業的評測機構、技術機構等,也要注重自己的口碑,建立完善的體系,儲備豐富的經驗,有較好的技術團隊和技術儲備,作出更加客觀公允、公平公正的評價?!耙驗橐坏┏霈F‘人情分’等問題,不僅會影響自己的聲譽,也不利于行業的未來發展”,王鵬稱。

(文章來源:北京商報)

標簽:

電腦

硬件

電競

數碼

擴容卡是什么?擴容卡怎么檢測? 什么內存卡好?閃迪內存卡怎么樣? 大于4GB文件移動硬盤無法存儲怎么辦?移動硬盤不被系統識別怎么辦? 移動硬盤保養有什么技巧?購買移動硬盤有什么注意事項? 手機SD卡受損怎么辦?局域網計算機怎么禁用U盤?
產品

北交所優化新股發行上市流程 整體用時縮減20%左右

一則消息帶崩整個板塊!兩大機場澄清后,國泰君安也辟謠了

通威股份:上半年凈利潤132.7億元 擬總投資200億元新建兩項目

辦理加油卡單位介紹信內容怎么寫(辦理加油卡單位介紹信)

將軍白發征夫淚運用了什么修辭手法(將軍白發征夫淚)

嫩草成人www欧美| 亚洲国产成人自拍| 久久久精品日韩| 99re66热这里只有精品8| 国产精一区二区| 国产精品欧美大片| 91精品国产综合久久香蕉的特点 | 亚洲深爱激情| 三级成人在线视频| xfplay精品久久| 亚洲色欲色欲www| 91美女在线观看| 久久国产成人精品| 欧美日韩91| 精品视频高潮| 爽爽窝窝午夜精品一区二区| 里番在线播放| 国产视频二区在线观看| 色综合久久网女同蕾丝边| 亚洲小说图片视频| 国产精品99一区二区三| 欧美人与禽猛交乱配视频| 亚洲第一黄网| 日本在线免费播放| 欧美性生活影院| 欧美性猛交xxxx乱大交退制版| 国产mv日韩mv欧美| 国产精品白浆| 欧美日韩免费高清一区色橹橹| 欧美日韩国产色综合一二三四| 波多野结衣在线高清| 精品久久久久久久久久久久久久久 | eeuss影院一区二区三区| 一本久久青青| 中文在线最新版地址| 可播放的18gay1069| 欧美日韩欧美一区二区| 久久久精品国产99久久精品芒果| 亚洲国产精品第一区二区三区| 精品国产鲁一鲁****| 自拍亚洲图区| 丝袜足控免费网站xx网站| 日本久久精品电影| 亚洲色图欧洲色图婷婷| 国产成人在线影院| 日韩电影一区二区三区| 91日韩免费| 亚洲bt欧美bt精品777| 福利一区在线| 人在线成免费视频| 国产高清免费av在线| 亚洲精品一区二区| caoporn超碰国产公开| 欧美成人伊人久久综合网| 色就色 综合激情| 国产精品久久久爽爽爽麻豆色哟哟| 九色|91porny| 蜜臀av在线播放一区二区三区| 国产精品传媒精东影业在线| 日韩久久精品网| 久久久久久久久久久久久久久久久久 | 国产九一视频| 蜜桃视频中文字幕| 嫩草影院官网| 电影天堂最新网址| 亚洲视频精品在线观看| 成人精品一区二区三区校园激情| 国产精品天堂| ****av在线网毛片| 国模视频一区| 狂野欧美xxxx韩国少妇| 国内成人精品2018免费看| 亚洲先锋影音| 国产精品99视频| 在线免费观看欧美| 免费人成黄页网站在线一区二区| 亚洲人成免费| 99久久精品国产麻豆演员表| 亚洲黄色性网站| 精品精品欲导航| 国产精品扒开做爽爽爽的视频| 91国内外精品自在线播放| 伊人久久亚洲| 亚洲激情在线| 高清视频一区二区| 国产毛片精品国产一区二区三区| 亚欧成人精品| 国产性色一区二区| 色视频一区二区| 欧美精品成人一区二区三区四区| 欧美日韩一级二级| jzzjzzjzz亚洲成熟少妇| 久久的色偷偷| 蜜桃免费网站一区二区三区| 国产午夜精品久久| 在线视频一区二区三| 中文在线视频| 久久久久久久久久久久电影| 日韩av成人高清| 亚洲国产日韩av| 超碰在线图片| 日韩精品中文字幕吗一区二区| 先锋影音国产一区| 欧美日韩人人澡狠狠躁视频| 国产夫妻视频| 超碰97成人| 91色视频在线| 国产美女特级嫩嫩嫩bbb片| 欧美freesex| 国自产拍偷拍福利精品免费一| 久久免费国产精品| 欧美日本乱大交xxxxx| 黄动漫在线看| 亚洲伦理久久| 久久国产福利国产秒拍| 亚洲综合一区二区三区| 羞羞视频在线观看| 综合伊人久久| 玖玖国产精品视频| 91精品国产综合久久久久| 天堂中文在线播放| 国产成人午夜精品影院观看视频| 欧美一二三四在线| 久久野战av| 欧美亚洲视频| 精品国产一区二区三区四区四| 69堂免费精品视频在线播放| 成人午夜精品一区二区三区| 亚洲成人激情在线| 91精品一久久香蕉国产线看观看| 99精品国产一区二区三区不卡| 日韩精品一区二区三区在线 | 日本福利小视频| 欧美91视频| 日韩精品在线观看网站| 亚洲成av人片一区二区密柚| 欧美日韩精品一区二区天天拍小说| а√天堂资源国产精品| 国产精品一区二区三区乱码| 外国精品视频在线观看| 免费观看日韩电影| 婷婷在线视频| 成人av免费在线观看| 毛片免费不卡| 99精品欧美一区二区三区小说| 日本动漫同人动漫在线观看| 亚洲午夜一区二区| 亚洲日本中文| 日韩欧美中文字幕在线观看| 日韩中文字幕无砖| 91精品久久久久久久99蜜桃| 亚洲最大av| 四虎精品在线| 久久五月婷婷丁香社区| 日韩理论电影| 色猫av在线| 日韩风俗一区 二区| 国产婷婷一区二区| 午夜精品毛片| 中文在线最新版天堂8| 亚洲国产精品成人综合色在线婷婷 | japanese色国产在线看视频| 亚洲色欲色欲www在线观看| 国语精品视频| 亚洲精品天天看| 日韩中文字幕一区二区三区| 亚洲丝袜精品| 欧美色图天堂网| 欧美成人ⅴideosxxxxx| 国产亚洲欧美一区在线观看| 黄瓜视频成人app免费| 欧美一区二区福利视频| 蜜臀久久99精品久久久画质超高清| 国产不卡在线| 欧美日韩aaaaa| 国精产品一区一区三区mba桃花| 345成人影院| 亚洲国产成人爱av在线播放| 93久久精品日日躁夜夜躁欧美| 波多野结衣在线观看一区二区| 99视频在线观看地址| 亚洲国产精品欧美一二99| 国产一区二区高清| 丁香婷婷久久| 黄网在线免费| 精品99一区二区| 亚洲美女精品一区| 老鸭窝毛片一区二区三区 | 精品国模一区二区三区欧美| 伪装者免费全集在线观看| 欧美麻豆精品久久久久久| 国产亚洲一区二区三区在线观看| 亚洲成人一区| 视频国产精品| 午夜影院免费在线| 天天噜天天色| 亚洲精品mp4| 51午夜精品国产| 欧美日韩性生活视频| 18欧美亚洲精品|