Betsson

什么是博彩平台代理有什么直播体育直播平台吗_GPT-4完成正确率仅6%!北大等提议首个「多轮、多模态」PPT任务完成基准PPTC

发布日期:2026-05-17 20:15    点击次数:93
什么是博彩平台代理有什么直播体育直播平台吗_

新智元报谈iba真人百家乐

剪辑:LRS

【新智元导读】为了填补LLM在复杂多模态环境中期骗复杂用具完成多轮、多模态提示的评估空缺,推测打算东谈主员引入了PowerPoint任务完成(PPTC)基准测试,以评估LLM创建和剪辑PPT文档的才气。

最近对大型言语模子(举例ChatGPT和GPT-4)进行的评估责任东要侧重于在基本当然言语任务上的才气,以及模子生成用于科罚单句用户提示的API的用具使用才气,却忽略了在合股复杂多模态环境中使用API完成用户提示的困难。

博彩官网

此外,现存评估枢纽主要集聚在相比生成的API与标签API序列,但在存在多个/无尽正确科罚决策的复杂情况下,这种枢纽也变得不再适用。

为了科罚这个挑战,来自北大和微软亚洲推测打算院的推测打算东谈主员们提议了测试大模子在多轮,多模态环境下完成PPT任务的评估数据集PPTC(PowerPoint Task Completion)。

论文地址:http://arxiv.org/abs/2311.01767

开源形式:https://github.com/gydpku/PPTC

如图1(a)所示,为了匡助用户完成对PPT文档的创建和剪辑,推测打算东谈主员选拔多轮东谈主机对话的体式来构建数据集。

图1:(a)模拟了东谈主类与言语模子之间的多轮对话场景,以评估言语模子在PPT任务完成性能方面的发挥。(b)对话单位的轮次数目散播。

每轮启动于用户的提示,大模子需要生成对应的API序列行为科罚枢纽,推行并返复活成的PPT文档给用户。

zh皇冠代理登2

数据集聚一共有279个像这么的多轮对话单位,如图1(b)所示,大部分单位由3到10对话轮次构成。

更进一步,如图2(a)所示,数据集聚包含多样难度的用户提示(由所需API数目决定),如数百个波及到统计图表、表格、图像、空间位置有关多模态操作的提示。

快速交易近期,明星体育明星言论行为遭到网民批评谴责。如何正确地表达个人观点态度,已经成为全球公众明星们共同关注话题。想要了解关于如何正确地表达个人观点态度热门话题新闻,不妨加入皇冠博彩平台,全球公众一起分享讨论。太阳城app下载

图2:(a)提示所需最少API数目散播。(b)波及到统计图表,表格,图片和位置操作的用户提示数目。

生成和推行API序列

为了完成每轮用户的提示,推测打算东谈主员主要研讨:

1. 现时轮次的用户提示

2. 之前轮次的用户提示(对话历史)

3. PPT文档(环境信息)

4. 可使用的API列表行为大模子输入,prompt大模子生成对应的API序列行为科罚决策。

图3:一个会话单位中言语模子何如完成一个轮次。(A)用现时的提示、之前的提示(对话历史)、PPT文献施行以及API参考文献行为输入prompt大模子。(B)然后,言语模子生成API序列并推行它,以得回展望的PPT文献。(C)评估展望文献中的属性和位置计算

为了便捷大模子处理信息,推测打算东谈主员提供一个PPT文档读取函数来将多模态文档转动为翰墨体式的文档施行,以及一个API推行函数来自动推行大模子生成的API序列,从而生成对应的展望PPT文档。

评估大模子生成的PPT文档

本文提议PPTX-Match评估系统来评估大模子生成的文档是否正确。

皇冠客服飞机:@seo3687

如图3所示,它使用PPTX库来抽取生成的文档中总共的元素,并一一考据元素间的空间位置计算是否正确,并考据元素的属性施行是否和标签文档的对应施行匹配。

本文的评测系统只评测最终身成的PPT文档,因此允好多样API序列来完成用户提示。

基于这个系统,本文的评测筹办分离包括只研讨现时轮次的轮次层面发挥和研讨通盘单位的单位层面发挥。

实验效果

本文在3个闭源大模子和6个开源大模子上测试PPTC数据集。进一步的,本文测试规合算法(零样本想维链(Zero-shot CoT)和想维树(ToT)算法)以及PPT施行和API取舍算法是否能进一步普及GPT-4模子在PPTC上的发挥。

从表1和表2展现出的效果中,不错得出以下论断:

(1)GPT-4是9个大模子中发挥最强的模子,在创建新PPT文档任务中它致使能已毕75%的轮次层面正确率。

(2)基于开源大模子(LLaMa-2)的进一步代码预磨练(code-LLaMa)和对都大致进一步普及模子轮次层面发挥

表1:9个大言语模子的效果。「TD-003」是指Text-Davinci-003模子

(3)规合算法和取舍算法大致进一步普及GPT-4 2到5个百分点的轮次层面正确率。然则,本文发现,尽管想维树相对零样本想维链花了超过数倍的推断资本,它的发挥却并莫得昭着进一步的普及。

什么是博彩平台代理

表2:GPT-4和基于GPT-4模子的算法的效果。'CoT'和'ToT'分离是想维链和想维树算法

皇冠体育

三个PPTC上的主要挑战

皇冠足球 app

进一步的,本文分析得出大模子在PPTC上遭遇的三个主要的挑战:

1. 症结累计导致大模子单位层面发挥倒霉

尽管诸如GPT-4这么的大模子在轮次层面发挥较好,但当本文测试大模子在包含多个轮次的单位线索发挥时,大模子发挥大批倒霉。

如表1所示,在创建新文档任务中,GPT-4只正确完成了不到百分之23的多轮次单位。

2. 大模子处理长PPT模版的才气欠佳

在PPT文档剪辑任务中,大模子需要基于赐与的长PPT模板完成用户提示。

图4: 创建新的PPT文献任务(任务1)和剪辑PPT模板任务(任务2)的分析效果。在子图(a)中,本图展示了波及图表、表格、图片、位置和纯文本的提示的平均基于轮次的准确度。在子图(b)中,本图展示了GPT-4的四种常见症结的比例。

然则,如表1所示,即使是GPT-4,也只已毕了百分之38的轮次正确率,只完成了6%的多轮次单位。如图4(b)所示,对文档的诬陷成为剪辑任务的主要症结原因。

3. 多模态提示提高了任务难度

该剧凭借“爆笑喜剧与中式玄幻无缝衔接”的类型特点,和“传统武术与现代特效交织”的视听风格,大大满足了用户期待。导演许宏宇表示,“我们每场动作戏都在真实和幻想之间找平衡,让观众能有身临其境之感。”

如图4(a)所示,大模子在处理图表,表格,图像,空间位置有关的提示上的发挥远不如处理只波及纯文本操作的提示发挥,颠倒是波及到出动空间位置的提示。

如图4(b)所示,倒霉的空间位置感知成为创建新文档任务的主要症结原因。

转头

1. 本文提议了PowerPoint任务完成评估测试(PPTC),用于权衡在 PowerPoint 官方软件中的言语模子的任务完成性能。这一基准测试包含了279个多轮会话单位,涵盖了复杂的多模式环境中的数百个多模式提示。

2. 本文提议了PPTX-Match评估系统,用于自动测量言语模子在PPTC中的性能。本文测试了3个闭源言语模子和6个开源言语模子,发现GPT-4是总共言语模子中性能最强的。

3. 本文进一步发现了三个关键的症结成分:会话中的症结蓄积、长的PPT模板处理和多模态感知。这些发现为改日的言语模子和基于言语模子的agent系统提议了报复的挑战。

参考而已:

有什么直播体育直播平台吗太阳城集团控股有限公司

http://arxiv.org/abs/2311.01767