久久99精品久久久野外观看,亚洲成人一区在线观看,岛国精品一区,99成人在线

首頁 > 新車測評 > 新車測評 > 科學家用STEM數(shù)據(jù)集評測神經(jīng)網(wǎng)絡模型基礎,加快人工智能實現(xiàn)進程

科學家用STEM數(shù)據(jù)集評測神經(jīng)網(wǎng)絡模型基礎,加快人工智能實現(xiàn)進程

發(fā)布時間:2024-05-01 15:08:46

理工科 STEM 技能,是解決真實世界中諸多問題的基礎。譬如,探索蛋白質結構、證明數(shù)學定理、發(fā)現(xiàn)新藥物等。(編者注:STEM,即科學、技術、工程和數(shù)學四門學科英文首字母的縮寫。)

 

而對于人工智能領域來說,理解視覺-文本的多模態(tài)信息,則是掌握 STEM 技能的關鍵。

 

可是,現(xiàn)有的數(shù)據(jù)集主要集中在檢驗模型解決專家級別難題的能力上,難以反映模型在基礎知識方面的掌握情況。并且,其往往只考慮文本信息而忽略視覺信息,又或者只關注 STEM 中某單一學科的能力。

 

另外,由于缺少細粒度的信息,該領域的科學家也無法更好地分析與改進神經(jīng)網(wǎng)絡模型存在的薄弱之處。

 

所以,模型在這種情況下生成的內(nèi)容,既無法讓人充分信任,又不能幫助指導未來模型開發(fā)的方向。

 

更重要的是,由于缺乏和人類表現(xiàn)相關的數(shù)據(jù),因此科學家也不可能獲取到更具實際意義的模型表現(xiàn)參考,嚴重阻礙了人工智能的健康發(fā)展。

 

為了攻克上述局限性,近期,來自北京大學和美國圣路易斯華盛頓大學的研究團隊,不僅成功完成了首個多模態(tài) STEM 數(shù)據(jù)集的構建,還在此基礎上實現(xiàn)對大語言模型與多模態(tài)基礎模型的評測。

 

結果發(fā)現(xiàn),即使是目前最先進的人工智能模型,其 STEM 基礎水平也存在較大的提升空間,尚不具備解決更有難度的現(xiàn)實問題的能力。也就是說,與人類智能相比,目前人工智能的水平還有一定差距。

 

 

圖丨綜合評測效果(來源:ICLR 2024)

 

近日,相關論文以《測量神經(jīng)網(wǎng)絡模型的視覺-語言理工科技能》(Measuring Vision-Language STEM Skills of Neural Models)為題收錄于 2024 國際表征學習大會(ICLR 2024,International Conference on Learning Representations 2024)上[1]。

 

據(jù)悉,該會議將于今年 5 月 7 日至 5 月 11 日在奧地利的首都維也納召開。

 

STEM 數(shù)據(jù)集相關資源如下。

 

評測鏈接:
https://huggingface.co/spaces/stemdataset/stem-leaderboard

數(shù)據(jù)集頁面:
https://huggingface.co/datasets/stemdataset/STEM

代碼 GitHub:
https://github.com/stemdataset/STEM

 

北京大學博士研究生沈劍豪和袁野是共同第一作者,圣路易斯華盛頓大學王晨光助理教授和北京大學張銘教授擔任共同通訊作者。王晨光助理教授博士畢業(yè)于北京大學,導師是張銘教授。

 

圖丨相關論文(來源:ICLR 2024)

 

 

搭建 STEM 數(shù)據(jù)集,全方位評測神經(jīng)網(wǎng)絡模型的基礎理工科能力

 

據(jù)王晨光介紹,課題組在確定研究目標和題目之后,便開始著手收集數(shù)據(jù)。

 

一向擅長于算法研究的團隊成員,在面對爬蟲編寫、數(shù)據(jù)清洗和去重等工作時不免有些犯難。盡管如此,他們還是迎難而上,設計了多種用于數(shù)據(jù)清洗和去重的規(guī)則,最終成功獲得了首個多模態(tài) STEM 數(shù)據(jù)集。

 

圖丨左起;王晨光、張銘、沈劍豪、袁野、Srbuhi Mirzoyan(來源:課題組)

 

值得一提的是,該數(shù)據(jù)集包含 448 個 STEM 技能,共 1073146 道題目,是目前涵蓋面最廣、包含題目最多的多模態(tài) STEM 題目數(shù)據(jù)集。

 

圖丨相關論文(來源:ICLR 2024)

 

接著,他們開始針對數(shù)據(jù)集進行評測與分析。

 

由于該數(shù)據(jù)集包含科目(科學、技術、工程、數(shù)學)、技能和年級三個維度標簽,因此研究人員選擇從這三個維度切入,對每個維度的數(shù)據(jù)數(shù)量分布、問題類型分布、問題長度分布等信息進行了詳盡分析。

 

與此同時,他們也針對每個科目,按照 6:2:2 的比例,劃分了訓練集、驗證集與未公開標簽的測試集。

 

隨后,研究人員又設計了模型評測方案。

 

其中,在選擇評測指標時,他們除了關注準確率,還重點使用全球范圍內(nèi)最被認可的在線習題網(wǎng)站之一(https://www.ixl.com/)的考試分數(shù)。

 

后者是基于該網(wǎng)站千萬用戶的真實考試成績得出的,與學生對知識的掌握程度呈正相關。當分數(shù)達到 90 以上(通常是小學生水平)時,就代表學生掌握了該技能。

 

“我們讓模型模仿考生在線答題,再將得到的考試分數(shù)與真實人類的考試結果進行比較。”王晨光表示。

 

這也正是該工作的一大亮點。原因在于,過去將人類的表現(xiàn)與人工智能做比較時,前者都是由相對較小的樣本(例如幾百到幾千人)總結出的,而該團隊的結果卻是基于千萬量級的數(shù)據(jù)得到的,可信度更高。

 

然后,在模型評測環(huán)節(jié),研究人員選擇使用當前主流的大基礎模型,包括 OpenAI 的多模態(tài) CLIP 模型,以及大語言模型 ChatGPT 的 GPT3.5-Turbo 版本。

 

前者根據(jù)模型判斷問題選項與圖片的匹配程度來做出選擇,后者則利用字幕模型為圖片生成描述,并利用語言模型選擇回答。

 

“我們評測了不同規(guī)模的 CLIP 模型與 GPT3.5-Turbo 模型,發(fā)現(xiàn)在 0 樣本的設置下,模型的錯誤率很高。這表明現(xiàn)有模型無法直接真正地掌握這些知識。”王晨光表示。

 

進一步地,他們又利用劃分出的訓練數(shù)據(jù)集,對 CLIP 模型進行了微調(diào),發(fā)現(xiàn)微調(diào)后的模型取得了顯著的效果提升,綜合準確率從 54.4% 提升至 76.3%。不過,這離 90 分依然有一定差距。

 

除此之外,該課題組還對模型結果的各個側面進行了分析。

 

具體來說,首先,在年級層面,他們發(fā)現(xiàn)模型的測驗分數(shù)隨著題目所屬年級的升高而降低,這符合年級越高的題目難度就越高的預期。

 

圖丨測驗分數(shù)隨年級變化(來源:ICLR 2024)

 

其次,通過模型在不同技能上的評測表現(xiàn),他們發(fā)現(xiàn)模型在抽象知識與復雜推理任務上的表現(xiàn)欠佳。

 

另外,過去的經(jīng)驗表明,模型應該對正確答案有著較高的預測置信度,這代表著模型的校準度較好。

 

“我們發(fā)現(xiàn)在我們的數(shù)據(jù)集上微調(diào)過的模型,表現(xiàn)出了良好的校準性,模型的置信度與準確率呈現(xiàn)清晰的相關性。”王晨光說。

 

另一方面,他們在研究模型規(guī)模與效果之間關系的過程中,也發(fā)現(xiàn)了清晰的正相關關系。

 

與此同時,他們還分析了模型表現(xiàn)與問題長度、問題類型、選項數(shù)量等其它因素之間的關系,發(fā)現(xiàn)隨著問題變長、選項數(shù)量變多和樣例數(shù)量變少,模型的表現(xiàn)都會下降。

 

除此之外,他們也評估了準確率與測驗考試分數(shù)這兩種指標的相關性,發(fā)現(xiàn)它們同樣呈現(xiàn)出顯著的正相關。

 

“最終,在整體的評價指標上,我們確認即使是微調(diào)過的模型,與人類對應年級學生水平相比也有顯著差距。基于此,我們?nèi)匀恍枰獙ふ腋行У姆椒ǎ鼓P驼莆?STEM 知識技能。”王晨光說。

 

圖丨與人類表現(xiàn)比較(來源:ICLR 2024)

 

 

嘗試推出更多評測大語言模型的數(shù)據(jù)集,加快通用人工智能實現(xiàn)的進程

 

顯而易見,在該項研究中,STEM 數(shù)據(jù)集發(fā)揮了關鍵作用。

 

它不僅有利于模型增強 STEM 的基礎知識,還能幫助研究人員評估模型對于基礎 STEM 技能掌握的程度,并通過細粒度的數(shù)據(jù)分析有針對性地改進模型。

 

王晨光表示,他和團隊期待該數(shù)據(jù)集可以進一步推動當前多模態(tài)大模型的研究,朝著模型能夠充分理解 STEM 技能、解決真實場景下 STEM 問題的目標更進一步。

 

并且,也希望發(fā)布的測試集可以作為評測人工智能基礎模型能力的標準評測之一,得到社區(qū)的廣泛使用。

 

“更重要的是,我們提供的與大規(guī)模人類(主要是小學生)真實水平的比較,可以作為未來模型開發(fā)的目標和參考,以加快通用人工智能目標實現(xiàn)的進程。”他說。

 

目前,基于該數(shù)據(jù)集,該課題組已經(jīng)成功評測了神經(jīng)網(wǎng)絡模型在基礎教育中的理工科能力。

 

接下來,他們一方面計劃繼續(xù)收集數(shù)據(jù),并嘗試推出諸如人文學科、社會學科等領域的數(shù)據(jù)集,以更好地評測大語言模型在其他關鍵學科上的能力。

 

在這方面值得關注的是,該團隊最近已經(jīng)提出了一個新的社會學科數(shù)據(jù)集 Social,包含較大規(guī)模的文本評估數(shù)據(jù),可用來評測大語言模型的社會學科基礎能力。

 

進一步地,還設計了一種多智能體交互的方法,能夠增強大語言模型在 Social 數(shù)據(jù)集上的表現(xiàn)。

 

相關論文以《衡量大語言模型的社會規(guī)范》(Measuring Social Norms of Large Language Models)為題收錄于計算語言學協(xié)會北美分會 2024 年年會(NAACL 2024,2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics)上[2]。

 

據(jù)悉,該會議將于今年 6 月 16 日至 6 月 21 日在墨西哥的首都墨西哥城召開。

 

另一方面,他們也打算通過研究模型在細粒度數(shù)據(jù)集上的表現(xiàn),找出模型能力不足的部分,并研究如何改進。

 

此外,還希望通過結合檢索的 RAG 方法、設計特殊的模型架構和訓練方法,來進一步增強模型的基礎能力。

 

“我們相信,只有先在基礎理工科和文科領域實現(xiàn)突破,扎實打好基礎,人工智能才有被進一步應用的可能性。”王晨光如是說。

新車測評更多>>

民族畫報社一行來咸豐開展采風活動 奇瑞也要造皮卡了,三種動力版本,主打野性,25年上市 2025款領克03+正式上市,19.88萬起,還看什么GTI 定位潮趣智能GT轎車的海豹06 GT,如何吸引年輕人? 特斯拉Cybertruck不用國產(chǎn)了,長安幫你造了,19.99萬起 吉利銀河星艦7官圖發(fā)布,搭最新雷神超級電混技術 奧迪的電動高性能轎車要來了,超800匹馬力,還有旅行版 內(nèi)行人奉勸大家,買手機首選華為,原因太真實 部分三星手機用戶反饋安裝11月更新后,無法使用安卓Auto功能 華為Nova13銷量不錯!和榮耀200系列相比哪個更香? 2025款寶馬3系實車到店,外觀辨識度高,車機系統(tǒng)升級,全系8AT 手握12萬,五菱星光S純電版和銀河E5,選誰更劃算? 比亞迪海豹06 GT到店,運動屬性加持,軸距2820mm,有望近期上市 10萬級插混SUV新選擇,藍電E5 PLUS上市,7.8秒可破百,值得買嗎? 國產(chǎn)純電超跑,售價168萬,2秒級破百,仰望U9有何硬實力? 解讀小鵬MONA M03,配雙英偉達芯片+高階智駕,不到16萬,不香? 比亞迪王朝首款中大型旗艦MPV亮相,預售30萬起,有顏值又有實力 全新海豹06GT來襲,預售15萬起,4.9秒可破百,能成爆款? 塊頭都不小呀!比亞迪騰勢N9、全新“夏”MPV現(xiàn)身目錄 蘋果推出新款iPad mini 現(xiàn)在即可訂購 10月23日在實體店開售 一汽紅旗:交付 EH7 榮耀版,助力體育強國 中國車企正在“顛覆”歐洲老牌制造商?小鵬、廣汽紛紛“安撫” 第100萬輛汽車下線 理想汽車成國內(nèi)首個“百萬輛新勢力車企” AION V 打頭陣,廣汽開始籌謀歐洲市場 廣汽集團亮相巴黎車展,全新歐洲市場計劃推動全球化戰(zhàn)略 AI應用持續(xù)深化 打破游戲行業(yè)“不可能三角” 一線城市樓市:全面回暖,未來可期 政策大調(diào)整!樓市迎來巨變,官方態(tài)度明確,購房者需注意! 公認“低價高配”,4款16G+512G旗艦手機推薦,輕松流暢用五年 Counterpoint:2024年Q3全球智能手機市場同比增長2%,摩托羅拉和華為引領市場增長
久久99精品久久久野外观看,亚洲成人一区在线观看,岛国精品一区,99成人在线
精品三级av| 水野朝阳av一区二区三区| 成人精品高清在线视频| 国产精品magnet| 国产主播一区| 91精品国产自产精品男人的天堂 | 久久wwww| 久久男女视频| 免费成人在线观看| 亚洲啊v在线| 亚洲精品亚洲人成在线观看| 国产精品久久久久久久久久白浆| 久久久久久久久久久9不雅视频| 国产调教一区二区三区| 久久亚洲精品中文字幕蜜潮电影| 久久精品凹凸全集| 亚洲少妇在线| 日韩美女一区二区三区在线观看| 日韩精品视频在线看| 亚洲电影在线一区二区三区| 国产精品久久久免费| 亚洲乱码一区| 香蕉成人久久| 亚洲色诱最新| 欧美精选一区二区三区| 日韩伦理福利| 色在线视频观看| 黄色网一区二区| 精品一级视频| 日韩高清电影免费| 亚洲精品人人| 一区二区国产在线| 国产模特精品视频久久久久| 国产视频一区在线观看一区免费| 亚洲精品1区| 免费久久99精品国产自在现线| 精品国产亚洲一区二区三区大结局| 日韩福利视频导航| 国产日产精品_国产精品毛片| 国产精品亚洲成在人线| 国产精品一区二区三区美女| 久久av免费| 色一区二区三区| 欧美中文一区二区| 99视频精品全国免费| 国产亚洲精品自拍| 日本色综合中文字幕| 精品成av人一区二区三区| 日韩成人精品一区二区| 六月婷婷一区| 精品一区二区三区亚洲| 免费日韩av片| 日韩深夜视频| 日韩福利视频一区| 亚洲国产欧美日本视频| 国产精品老牛| 国产一区调教| 亚洲精品九九| 99久久精品费精品国产| 久久亚洲色图| 中文字幕色婷婷在线视频| 国产视频一区在线观看一区免费| 国产精品一页| 美美哒免费高清在线观看视频一区二区| 久久99久久人婷婷精品综合| 国产亚洲亚洲| 日韩理论片av| 欧美激情亚洲| 日韩av三区| 国产精品毛片在线| 国产精品va| 国产亚洲电影| 免费成人在线影院| 99xxxx成人网| 国产精品毛片aⅴ一区二区三区| 久久视频一区| 美女视频免费精品| 亚洲综合色婷婷在线观看| 久久精品国产99久久| 国产在线观看www| 国产精品久久免费视频| 日本精品另类| 日韩精品91亚洲二区在线观看| 亚洲精品va| 在线视频免费在线观看一区二区| 久久国产电影| 999国产精品视频| 久久影视一区| 国产第一亚洲| 国产一区二区精品福利地址| 成人午夜在线| 久久亚洲资源中文字| 国产精品nxnn| 天堂av在线| 亚洲国产成人精品女人| 99国产精品久久久久久久| se01亚洲视频 | 国产精品巨作av| 国产精品hd| 色综合五月天| 欧美亚洲精品在线| 日韩va欧美va亚洲va久久| 国产精品一区二区精品| 国产精品亚洲一区二区在线观看| 国产精品国产三级国产在线观看| 国产一区日韩| 伊人影院久久| 97久久精品| 日本免费久久| 亚欧洲精品视频在线观看| 久久激情五月激情| 青青久久av| 久久国产麻豆精品| 日韩免费av| 奇米色欧美一区二区三区| 日韩三区在线| 欧美一级久久| 久久久精品午夜少妇| 视频一区二区中文字幕| 美腿丝袜亚洲三区| 红桃视频亚洲| 你懂的亚洲视频| 中文在线不卡| 欧美三级网址| 欧美国产专区| 蜜臀av性久久久久蜜臀aⅴ四虎| 久久精品国产福利| 尹人成人综合网| 99精品视频在线| 久久久亚洲欧洲日产| 中文字幕视频精品一区二区三区 | 久久久精品久久久久久96| 国产亚洲一区| 亚洲欧洲一区| 午夜欧美巨大性欧美巨大| 丝袜美腿一区二区三区| 欧美网站在线| 韩国精品主播一区二区在线观看| 红桃视频亚洲| 亚洲成人二区| 欧洲一区二区三区精品| av高清不卡| 日韩专区精品| 免费视频国产一区| 成人精品中文字幕| 亚洲美女久久精品| 日韩久久电影| 欧美综合另类| 天使萌一区二区三区免费观看| 亚洲作爱视频| 免费在线看一区| 少妇精品久久久一区二区| 日本午夜精品久久久| 日本视频在线一区| 日本视频一区二区| 美日韩一区二区三区| 理论片午夜视频在线观看| 国产精品专区免费| 999久久久国产精品| 免费黄网站欧美| 日本中文字幕不卡| 色狠狠一区二区三区| 久久国产三级精品| 日韩网站中文字幕| 久久午夜影视| 麻豆一区二区99久久久久| 丁香六月综合| 乱人伦精品视频在线观看| 日韩中出av| 国产一区二区三区久久| 精品国产亚洲一区二区三区在线 | 日韩精品一级中文字幕精品视频免费观看 | 久久国产高清| 国产精品久久久亚洲一区| 免费一二一二在线视频| 日韩午夜黄色| 美腿丝袜在线亚洲一区| 国产综合亚洲精品一区二| 亚洲精品伊人| 久久国产成人午夜av影院宅| 久久激情综合网| 亚洲精品极品| 亚洲国内欧美| 久久国际精品| 亚洲精品九九| 国产亚洲综合精品| 97国产成人高清在线观看| 日本免费新一区视频| 欧美日韩精品免费观看视频完整| 国产日韩精品视频一区二区三区| 免费在线观看视频一区| 久久麻豆精品| 久久精品国内一区二区三区水蜜桃| 国产欧美精品| 国产视频一区二区在线播放| 中文字幕亚洲在线观看| 亚洲一区二区成人| 亚洲精品在线观看91| 久久精品国产成人一区二区三区| 亚洲精品在线二区|