Ai平臺(tái)模型
Open LLM Leaderboard
Open LLM Leaderboard 是最大的大模型和數(shù)據(jù)集社區(qū) HuggingFace 推出的開(kāi)源大模型排行榜單,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI語(yǔ)言模型評(píng)估框架)封裝。
標(biāo)簽:Ai平臺(tái)模型Open LLM Leaderboard 是最大的大模型和數(shù)據(jù)集社區(qū) HuggingFace 推出的開(kāi)源大模型排行榜單,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI語(yǔ)言模型評(píng)估框架)封裝。
由于社區(qū)在發(fā)布了大量的大型語(yǔ)言模型(LLM)和聊天機(jī)器人之后,往往伴隨著對(duì)其性能的夸大宣傳,很難過(guò)濾出開(kāi)源社區(qū)取得的真正進(jìn)展以及目前的最先進(jìn)模型。因此,Hugging Face 使用 Eleuther AI語(yǔ)言模型評(píng)估框架對(duì)模型進(jìn)行四個(gè)關(guān)鍵基準(zhǔn)測(cè)試評(píng)估。這是一個(gè)統(tǒng)一的框架,用于在大量不同的評(píng)估任務(wù)上測(cè)試生成式語(yǔ)言模型。
Open LLM Leaderboard 的評(píng)估基準(zhǔn)
- AI2 推理挑戰(zhàn)(25-shot):一組小學(xué)科學(xué)問(wèn)題
- HellaSwag(10-shot):一個(gè)測(cè)試常識(shí)推理的任務(wù),對(duì)人類(lèi)來(lái)說(shuō)很容易(大約95%),但對(duì)SOTA模型來(lái)說(shuō)具有挑戰(zhàn)性。
- MMLU(5-shot)- 用于測(cè)量文本模型的多任務(wù)準(zhǔn)確性。測(cè)試涵蓋57個(gè)任務(wù),包括基本數(shù)學(xué)、美國(guó)歷史、計(jì)算機(jī)科學(xué)、法律等等。
- TruthfulQA(0-shot)- 用于測(cè)量模型復(fù)制在在線常見(jiàn)虛假信息中的傾向性。