AI創(chuàng)作

#Ai應(yīng)用

AI目前主要應(yīng)用在哪些領(lǐng)域？AI應(yīng)用非常廣泛，只要有語音識別，圖像識別，自然語言處理，智能安防，智能家居，人工智能醫(yī)療，金融智能，智能交通等。

最新AI應(yīng)用

我們收集優(yōu)秀的論文查重、潤色論文和論文網(wǎng)站等AI人工智能論文寫作網(wǎng)站，幫助學(xué)術(shù)界和學(xué)生們提高論文質(zhì)量和學(xué)術(shù)水平，論文寫作效率。

Replicate

在線運(yùn)行開源機(jī)器學(xué)習(xí)模型

Evidently AI

開源的機(jī)器學(xué)習(xí)模型監(jiān)測和測試工具

MMLU

MMLU 全稱 Massive Multitask Language Understanding，是一種針對大模型的語言理解能力的測評，是目前最著名的大模型語義理解測評之一，由UC Berkeley大學(xué)的研究人員在2020年9月推出。

Open LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和數(shù)據(jù)集社區(qū) HuggingFace 推出的開源大模型排行榜單，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI語言模型評估框架）封裝。

C-Eval

C-Eval是一個(gè)適用于大語言模型的多層次多學(xué)科中文評估套件，由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)研究人員在2023年5月份聯(lián)合推出，包含了13948個(gè)多項(xiàng)選擇題，涵蓋了52個(gè)不同的學(xué)科和四個(gè)難度級別，用以評測大模型中文理解能力。

FlagEval

FlagEval（天秤）由智源研究院將聯(lián)合多個(gè)高校團(tuán)隊(duì)打造，是一種采用“能力—任務(wù)—指標(biāo)”三維評測框架的大模型評測平臺，旨在提供全面、細(xì)致的評測結(jié)果。

SuperCLUE

SuperCLUE 是一個(gè)中文通用大模型綜合性評測基準(zhǔn)，從三個(gè)不同的維度評價(jià)模型的能力：基礎(chǔ)能力、專業(yè)能力和中文特性能力。

OpenCompass

OpenCompass是由上海人工智能實(shí)驗(yàn)室（上海AI實(shí)驗(yàn)室）于2023年8月正式推出的大模型開放評測體系，通過完整開源可復(fù)現(xiàn)的評測框架，支持大語言模型、多模態(tài)模型各類模型的一站式評測，并定期公布評測結(jié)果榜單。

CMMLU

CMMLU是一個(gè)綜合性的中文評估基準(zhǔn)，專門用于評估語言模型在中文語境下的知識和推理能力，涵蓋了從基礎(chǔ)學(xué)科到高級專業(yè)水平的67個(gè)主題。

MMBench

MMBench是一個(gè)多模態(tài)基準(zhǔn)測試，該體系開發(fā)了一個(gè)綜合評估流程，從感知到認(rèn)知能力逐級細(xì)分評估，覆蓋20項(xiàng)細(xì)粒度能力，從互聯(lián)網(wǎng)與權(quán)威基準(zhǔn)數(shù)據(jù)集采集約3000道單項(xiàng)選擇題。打破常規(guī)一問一答基于規(guī)則匹配提取選項(xiàng)進(jìn)行評測，循環(huán)打亂選項(xiàng)驗(yàn)證輸出結(jié)果的一致性，基于ChatGPT精準(zhǔn)匹配模型回復(fù)至選項(xiàng)。

HELM

HELM是由斯坦福大學(xué)推出的大模型評測體系，該評測方法主要包括場景、適配、指標(biāo)三個(gè)模塊，每次評測的運(yùn)行都需要指定一個(gè)場景，一個(gè)適配模型的提示，以及一個(gè)或多個(gè)指標(biāo)。

Chatbot Arena

Chatbot Arena是一個(gè)大型語言模型 (LLM) 的基準(zhǔn)平臺，以眾包方式進(jìn)行匿名隨機(jī)對戰(zhàn)，該項(xiàng)目方LMSYS Org是由加州大學(xué)伯克利分校、加州大學(xué)圣地亞哥分校和卡內(nèi)基梅隆大學(xué)合作創(chuàng)立的研究組織。

LLMEval3

LLMEval是由復(fù)旦大學(xué)NLP實(shí)驗(yàn)室推出的大模型評測基準(zhǔn)，最新的LLMEval-3聚焦于專業(yè)知識能力評測，涵蓋哲學(xué)、經(jīng)濟(jì)學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、理學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué)、藝術(shù)學(xué)等教育部劃定的13個(gè)學(xué)科門類、50余個(gè)二級學(xué)科，共計(jì)約20W道標(biāo)準(zhǔn)生成式問答題目。

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 用于評估和比較 LLM 大模型的開放工具，它提供了一個(gè)平臺來了解模型在大量任務(wù)和基準(zhǔn)測試中的性能。無論你是想使用大模型自動化工作流程或任務(wù)，H2O EvalGPT 都可以提供流行、開源、高性能大模型的詳細(xì)排行榜，幫助你為項(xiàng)目選擇最有效的模型完成具體任務(wù)。