OpenAI 发布MMMLU数据集：更广、更深评估 AI 模子，补助简体汉文

栏目分类

热点资讯

资讯

你的位置：九游娱乐(China)官方网站 > 资讯 > OpenAI 发布MMMLU数据集：更广、更深评估 AI 模子，补助简体汉文

发布日期：2024-09-26 06:14 点击次数：207

IT之家 9 月 24 日音问，科技媒体 marktechpost 昨日（9 月 23 日）发布博文，报说念称 OpenAI 在 Hugging Face 上发布了多话语大范围多任务话语贯通（MMMLU）数据集。

布景

跟着话语模子日益远大，评估其在不同话语、领路和文化布景下的材干已成为当务之急。

OpenAI 决定推出 MMMLU 数据集，通过提供远大的多话语和多任务数据集，来评估大型话语模子（LLMs）在各样任务中的性能，从而打法这一挑战。

MMMLU 数据集简介

MMMLU 数据集包含一系列问题，涵盖各样主题、学科边界和话语。其结构旨在评估模子在不同究诘边界中需要学问、推理、处置问题和贯通材干的任务中的阐明。

MMMLU 的创建反应了 OpenAI 对测量模子实质材干的存眷，尤其是在 NLP 究诘中代表性不及的话语，纳入多种话语可确保模子在使用英语时灵验，并能胜任群众使用的其他话语。

MMMLU 数据荟萃枢

涵盖范围广

MMMLU 数据集是同类基准中最鄙俚的基准之一，涵盖了从高中问题到高等专科和学术知识的多种任务。

究诘东说念主员和建造东说念主员在期骗 MMMLU 数据集历程中，不错调用不同难度的问题，测试大预言模子在东说念主文、科学和时间主题下的阐明。

更熟习深层领路

这些问题皆经过全心谋划，以确保对模子的测试不局限于名义贯通，而是长远究诘更深端倪的领路材干，包括批判性推理、线路和跨边界处置问题的材干。

多话语补助

MMMLU 数据集的另一个值得堤防的特色是它的多话语范围，补助简体汉文。该数据集补助多种话语，不错进行跨话语的空洞评估。

然而，以英语数据熟习的模子在使用其他话语频频常需要匡助来保握准确性和连贯性。MMMLU 数据集提供了一个框架，用于测试传统上在 NLP 究诘中代表性不及的话语模子，从而弥补了这一差距。

MMMLU 数据集真谛

MMMLU 的发布处置了东说念主工智能界的几个关系挑战。它提供了一种更具各样性和文化包容性的局势来评估模子，确保它们在高资源和低资源话语中皆能阐明出色。

MMMLU 的多任务秉性冲破了现存基准的界限，它不错评估并吞模子在不同任务中的阐明，从相似琐事的事实回忆到复杂的推理和问题处置。这么就能更细巧地了解模子在不同边界的优弱点。

IT之家附上参考地址

Multilingual Massive Multitask Language Understanding (MMMLU) dataset