Ai平臺(tái)模型
HELM
HELM是由斯坦福大學(xué)推出的大模型評(píng)測體系,該評(píng)測方法主要包括場景、適配、指標(biāo)三個(gè)模塊,每次評(píng)測的運(yùn)行都需要指定一個(gè)場景,一個(gè)適配模型的提示,以及一個(gè)或多個(gè)指標(biāo)。
標(biāo)簽:Ai平臺(tái)模型HELM全稱Holistic Evaluation of Language Models(語言模型整體評(píng)估)是由斯坦福大學(xué)推出的大模型評(píng)測體系,該評(píng)測方法主要包括場景、適配、指標(biāo)三個(gè)模塊,每次評(píng)測的運(yùn)行都需要指定一個(gè)場景,一個(gè)適配模型的提示,以及一個(gè)或多個(gè)指標(biāo)。它評(píng)測主要覆蓋的是英語,有7個(gè)指標(biāo),包括準(zhǔn)確率、不確定性/校準(zhǔn)、魯棒性、公平性、偏差、毒性、推斷效率;任務(wù)包括問答、信息檢索、摘要、文本分類等。