FlagEval(天秤)由智源研究院將聯(lián)合多個高校團隊打造,是一種采用“能力—任務(wù)—指標”三維評測框架的大模型評測平臺,旨在提供全面、細致的評測結(jié)果。該平臺已提供了 30 多種能力、5 種任務(wù)和 4 大類指標,共 600 多個維度的全面評測,任務(wù)維度包括 22 個主客觀評測數(shù)據(jù)集和 84433 道題目。
FlagEval(天秤)由智源研究院將聯(lián)合多個高校團隊打造,是一種采用“能力—任務(wù)—指標”三維評測框架的大模型評測平臺,旨在提供全面、細致的評測結(jié)果。該平臺已提供了 30 多種能力、5 種任務(wù)和 4 大類指標,共 600 多個維度的全面評測,任務(wù)維度包括 22 個主客觀評測數(shù)據(jù)集和 84433 道題目。