• <li id="v9jmt"><meter id="v9jmt"><th id="v9jmt"></th></meter></li>
    <label id="v9jmt"></label>

        Open LLM Leaderboard
        免費(fèi)測(cè)試
        Ai平臺(tái)模型

        Open LLM Leaderboard

        Open LLM Leaderboard 是最大的大模型和數(shù)據(jù)集社區(qū) HuggingFace 推出的開(kāi)源大模型排行榜單,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI語(yǔ)言模型評(píng)估框架)封裝。

        標(biāo)簽:

        Open LLM Leaderboard 是最大的大模型和數(shù)據(jù)集社區(qū) HuggingFace 推出的開(kāi)源大模型排行榜單,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI語(yǔ)言模型評(píng)估框架)封裝。

        由于社區(qū)在發(fā)布了大量的大型語(yǔ)言模型(LLM)和聊天機(jī)器人之后,往往伴隨著對(duì)其性能的夸大宣傳,很難過(guò)濾出開(kāi)源社區(qū)取得的真正進(jìn)展以及目前的最先進(jìn)模型。因此,Hugging Face 使用 Eleuther AI語(yǔ)言模型評(píng)估框架對(duì)模型進(jìn)行四個(gè)關(guān)鍵基準(zhǔn)測(cè)試評(píng)估。這是一個(gè)統(tǒng)一的框架,用于在大量不同的評(píng)估任務(wù)上測(cè)試生成式語(yǔ)言模型。

        Open LLM Leaderboard 的評(píng)估基準(zhǔn)

        • AI2 推理挑戰(zhàn)(25-shot):一組小學(xué)科學(xué)問(wèn)題
        • HellaSwag(10-shot):一個(gè)測(cè)試常識(shí)推理的任務(wù),對(duì)人類(lèi)來(lái)說(shuō)很容易(大約95%),但對(duì)SOTA模型來(lái)說(shuō)具有挑戰(zhàn)性。
        • MMLU(5-shot)- 用于測(cè)量文本模型的多任務(wù)準(zhǔn)確性。測(cè)試涵蓋57個(gè)任務(wù),包括基本數(shù)學(xué)、美國(guó)歷史、計(jì)算機(jī)科學(xué)、法律等等。
        • TruthfulQA(0-shot)- 用于測(cè)量模型復(fù)制在在線常見(jiàn)虛假信息中的傾向性。

        相關(guān)網(wǎng)站

        亚洲AV人无码综合在线观看| 99久久精品美女高潮喷水| 女同一区二区在线观看| 亚洲国产精品久久久久秋霞小| 欧美国产伦久久久久| 亚洲性无码av在线| 日韩高清免费在线观看| 亚洲国产精品自产在线播放| 极品美女aⅴ高清在线观看| 亚洲人成电影在线观看青青 | 国产三级电影在线播放| 课外辅导的秘密在线观看| 国产粉嫩粉嫩的18在线播放91| 97公开免费视频| 国产高清一区二区三区视频| tubesex69| 国产精品看高国产精品不卡| 99久久久久久久| 国模gogo大胆高清网站女模| jianema.cn| 夜夜精品视频一区二区| www亚洲精品少妇裸乳一区二区| 国产黄在线观看免费观看不卡| 91精品国产色综合久久不卡蜜| 国产精品成人自拍| 91一区二区三区| 国产成人免费一区二区三区| 香蕉大视频在线播放持久| 国产欧美亚洲精品a第一页| 蜜臀av性久久久久蜜臀aⅴ| 国产女人高潮叫床视频| 美女扒开尿口让男生捅| 国产 欧洲韩国野花视频| 精品国产免费一区二区三区 | 久久精品国产亚洲av电影| 成人欧美在线视频| 中文字幕高清免费不卡视频| 天天躁夜夜躁很很躁| aisaobi| 国产精品一区二区在线观看| 草莓视频在线观|