AI創作

智能未來·從芯思考

#Ai應用

AI目前主要應用在哪些領域？AI應用非常廣泛，只要有語音識別，圖像識別，自然語言處理，智能安防，智能家居，人工智能醫療，金融智能，智能交通等。

最新AI應用

我們收集優秀的論文查重、潤色論文和論文網站等AI人工智能論文寫作網站，幫助學術界和學生們提高論文質量和學術水平，論文寫作效率。

Replicate

在線運行開源機器學習模型

Evidently AI

開源的機器學習模型監測和測試工具

MMLU

MMLU 全稱 Massive Multitask Language Understanding，是一種針對大模型的語言理解能力的測評，是目前最著名的大模型語義理解測評之一，由UC Berkeley大學的研究人員在2020年9月推出。

Open LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和數據集社區 HuggingFace 推出的開源大模型排行榜單，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI語言模型評估框架）封裝。

C-Eval

C-Eval是一個適用于大語言模型的多層次多學科中文評估套件，由上海交通大學、清華大學和愛丁堡大學研究人員在2023年5月份聯合推出，包含了13948個多項選擇題，涵蓋了52個不同的學科和四個難度級別，用以評測大模型中文理解能力。

FlagEval

FlagEval（天秤）由智源研究院將聯合多個高校團隊打造，是一種采用“能力—任務—指標”三維評測框架的大模型評測平臺，旨在提供全面、細致的評測結果。

SuperCLUE

SuperCLUE 是一個中文通用大模型綜合性評測基準，從三個不同的維度評價模型的能力：基礎能力、專業能力和中文特性能力。

OpenCompass

OpenCompass是由上海人工智能實驗室（上海AI實驗室）于2023年8月正式推出的大模型開放評測體系，通過完整開源可復現的評測框架，支持大語言模型、多模態模型各類模型的一站式評測，并定期公布評測結果榜單。

CMMLU

CMMLU是一個綜合性的中文評估基準，專門用于評估語言模型在中文語境下的知識和推理能力，涵蓋了從基礎學科到高級專業水平的67個主題。

MMBench

MMBench是一個多模態基準測試，該體系開發了一個綜合評估流程，從感知到認知能力逐級細分評估，覆蓋20項細粒度能力，從互聯網與權威基準數據集采集約3000道單項選擇題。打破常規一問一答基于規則匹配提取選項進行評測，循環打亂選項驗證輸出結果的一致性，基于ChatGPT精準匹配模型回復至選項。

HELM

HELM是由斯坦福大學推出的大模型評測體系，該評測方法主要包括場景、適配、指標三個模塊，每次評測的運行都需要指定一個場景，一個適配模型的提示，以及一個或多個指標。

Chatbot Arena

Chatbot Arena是一個大型語言模型 (LLM) 的基準平臺，以眾包方式進行匿名隨機對戰，該項目方LMSYS Org是由加州大學伯克利分校、加州大學圣地亞哥分校和卡內基梅隆大學合作創立的研究組織。

LLMEval3

LLMEval是由復旦大學NLP實驗室推出的大模型評測基準，最新的LLMEval-3聚焦于專業知識能力評測，涵蓋哲學、經濟學、法學、教育學、文學、歷史學、理學、工學、農學、醫學、軍事學、管理學、藝術學等教育部劃定的13個學科門類、50余個二級學科，共計約20W道標準生成式問答題目。

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 用于評估和比較 LLM 大模型的開放工具，它提供了一個平臺來了解模型在大量任務和基準測試中的性能。無論你是想使用大模型自動化工作流程或任務，H2O EvalGPT 都可以提供流行、開源、高性能大模型的詳細排行榜，幫助你為項目選擇最有效的模型完成具體任務。

PubMedQA

PubMedQA是一個生物醫學研究問答數據集，包含了1K專家標注，61.2K 個未標注和 211.3K 個人工生成的QA實例，該排行榜目前已收錄18個模型的醫學測試得分。

酷表ChatExcel

北大團隊開發的通過聊天來操作Excel表格的AI工具

Ajelix

處理Excel和Google Sheets表格的AI工具

Sheet+

Excel和Google Sheets表格AI處理工具

ExcelFormulaBot

AI將指令轉換成Excel的函數公式

FormX.ai

AI自動從表格和文檔中提取數據

共 1873 個應用首頁 | 上一頁 | 8 9 10 11 12 13 14 15 16 | 下一頁 | 尾頁 20個應用/頁轉到第頁