首页
关于协会
新闻动态
培训公告
授权培训基地
教师查询
联系我们
栏目分类

新闻动态

你的位置:开云(中国大陆) Kaiyun·官方网站 > 新闻动态 > 体育游戏app平台但不同类别的图像各具特质-开云(中国大陆) Kaiyun·官方网站

体育游戏app平台但不同类别的图像各具特质-开云(中国大陆) Kaiyun·官方网站

发布日期:2025-04-13 13:19    点击次数:143

体育游戏app平台但不同类别的图像各具特质-开云(中国大陆) Kaiyun·官方网站

OpenAI 推出 SearchGPT 没几天,开源版块也来了。

港汉文 MMLab、上海 AI Lab、腾讯团队浅易兑现了Vision Search Assistant,模子绸缪概略,唯有两张 RTX3090就可复现。

Vision Search Assistant(VSA)以视觉说话模子(VLM)为基础,奥密地将 Web 搜索才能融入其中,让 VLM 里面的常识得到实时更新,使其愈加生动和智能。

当今,VSA 也曾针对通用图像进行了本质,可视化和量化效果细致。但不同类别的图像各具特质,还不错针对不同种类的图像(比如表格、医学等)构建出更为特定的 VSA 应用。

更令东说念主竭力的是,VSA 的后劲并不仅限于图像处理。还有更苍劲的可探索空间,比如视频、3D 模子和声息等限制,期待能将多模态计算推向新的高度。

让 VLM 处理未见过的图像和新见地

大型说话模子(LLM)的出现让东说念主类不错驾驭模子的苍劲零样本问答才能来获取生疏常识。

在此基础上,检索增强生成(RAG)等时候进一步提高了 LLM 在常识密集型、灵通域问答任务中的弘扬。然而,VLM 在濒临未见过的图像和新见地时,它们经常不可驾驭好来自互联网的最新多模态常识。

现存的 Web Agent 主要依赖于对用户问题的检索,并回来检索复返的 HTML 文本本色,因此它们在处理触及图像或其他视觉本色的任务时存在彰着的局限性,即视觉信息被冷漠或处理不充分。

为了照看这一问题,团队建议了 Vision Search Assistant。Vision Search Assistant 以 VLM 模子为基础,简略回答关联未见过的图像或新见地的问题,其行为访佛东说念主类在互联网上进行搜索并照看问题的过程,包括:

清醒查询

决定应该暖和图像中的哪些对象并揣测对象之间的琢磨性

逐对象生成查询文本

根据查询文本和揣测出的琢磨性分析搜索引擎复返的本色

判断取得的视觉和文本信息是否足以生成谜底,或者它应该迭代和更动上述过程

诱导检索效果,回答用户的问题

视觉本色刻画

视觉本色刻画模块被用来索求图像中对象级的刻画和对象之间的琢磨性,其经由如下图所示。

起首驾驭灵通域的检测模子来获取值得暖和的图像区域。紧接着对每一个检测到的区域,使用 VLM 获取对象级的文本刻画。

终末,为了更全面地抒发视觉本色,驾驭 VLM 进一步关联不同的视觉区域以取得不同对象的更精准刻画。

具体地,令用户输入图片为,用户的问题为。可通过一个灵通域的检测模子获取个感趣味的区域:

然后驾驭预历练的 VLM 模子划分刻画这个区域的视觉本色:

为了让不同区域的信息关联起来,提高刻画的精度,可将区域与其它区域的刻画拼接,让 VLM 对区域的刻画进行矫正:

至此,从用户输入取得了与之高度琢磨的个视觉区域的精准刻画。

Web 常识搜索:"搜索链"

Web 常识搜索的中枢是名为"搜索链"的迭代算法,旨在获取琢磨视觉刻画的轮廓性的 Web 常识,其经由如下图所示。

在 Vision Search Assistant 中驾驭 LLM 来生成与谜底琢磨的子问题,这一 LLM 被称为" Planing Agent "。搜索引擎复返的页面会被不异的 LLM 分析、摄取和回来,被称为" Searching Agent "。通过这种姿色,不错取得与视觉本色琢磨的 Web 常识。

具体地,由于搜索是对每个区域的视觉本色刻画划分进行的,因此以区域为例,并概略这个上标,即。该模块中使用团结个 LLM 模子构建方案智能体(Planning Agent)和搜索智能体(Searching Agent)。方案智能体扬弃整个这个词搜索链的经由,搜索智能体与搜索引擎交互,筛选、回来网页信息。

以第一轮迭代为例,方案智能体将问题拆分红个搜索子问题并交由搜索智能体处理。搜索智能体会将每一个请托搜索引擎,得到页面聚合。搜索引擎会阅读页面纲目并摄取与问题最琢磨的页面聚合(下标集为),具体要害如下:

关于这些被选中的页面,搜索智能体会详备阅读其本色,并进行回来:

最终,整个个子问题的回来运输给方案智能体,方案智能体回来得到第一轮迭代后的 Web 常识:

疏通进行上述迭代过程次,或是方案智能体以为现时的 Web 常识已足矣回话原问题时,搜索链罢手,得到最终的 Web 常识。

协同生成

最终基于原始图像、视觉刻画、Web 常识,驾驭 VLM 回答用户的问题,其经由如下图所示。具体而言,最终的回答为:

本质效果灵通集问答可视化对比

下图中比较了新事件(前两行)和新图像(后两行)的灵通集问答效果。

将 Vision Search Assistant 和 Qwen2-VL-72B 以及 InternVL2-76B 进行了比较,不难发现,Vision Search Assistant 擅永生成更新、更准确、更详备的效果。

举例,在第一个样例中,Vision Search Assistant 对 2024 年 Tesla 公司的情况进行了回来,而 Qwen2-VL 局限于 2023 年的信息,InternVL2 明确示意无法提供该公司的实时情况。

灵通集问答评估

在灵通集问答评估中,所有这个词通过 10 位东说念主类大家进行了比较评估,评估本色触及 7 月 15 日至 9 月 25 日历间从新闻中采集的 100 个图文对,涵盖新颖图像和事件的整个限制。

东说念主类大家从的确性、琢磨性和提拔性三个要害维度进行了评估。

如下图所示,与 Perplexity.ai Pro 和 GPT-4-Web 比拟,Vision Search Assistant 在整个三个维度上皆弘扬出色。

事实性:Vision Search Assistant 得分为 68%,优于 Perplexity.ai Pro(14%)和 GPT-4-Web(18%)。这一显赫起首标明,Vision Search Assistant 恒久提供更准确、更基于事实的谜底。

琢磨性:Vision Search Assistant 的琢磨性得分为 80%,在提供高度琢磨的谜底方面弘扬出显赫上风。比拟之下,Perplexity.ai Pro 和 GPT-4-Web 划分达到 11% 和 9%,透露出在保合手集聚搜索时效性方面存在显赫差距。

提拔性:Vision Search Assistant 在为其反应提供充分笔据和情理方面也优于其他模子,提拔性得分为 63%。Perplexity.ai Pro 和 GPT-4-Web 划分以 19% 和 24% 的得分过期。这些效果突显了 Vision Search Assistant 在灵通集任务中的荒芜弘扬,特殊是在提供全面、琢磨且得到细致提拔的谜底方面,使其成为处理新图像和事件的有用要害。

闭塞集问答评估

在 LLaVA W 基准进行闭集评估,其中包含 60 个问题,触及 VLM 在田园的对话、细节和推理才能。

使用 GPT-4o ( 0806 ) 模子进行评估,使用 LLaVA-1.6-7B 行为基线模子,该模子在两种模式下进行了评估:措施模式和使用概略 Google 图片搜索组件的"朴素搜索"模式。

此外还评估了 LLaVA-1.6-7B 的增强版块,该版块配备搜索链模块。

如下表所示,Vision Search Assistant 在整个类别中均弘扬出最强的性能。具体而言,它在对话类别中取得了 73.3% 的得分,与 LLaVA 模子比拟略有升迁,升迁幅度为 +0.4%。在细节类别中,Vision Search Assistant 以 79.3% 的得分脱颖而出,比弘扬最好的 LLaVA 变体越过 +2.8%。

在推理方面,VSA 要害比弘扬最好的 LLaVA 模子越过 +10.8%。这标明 Vision Search Assistant 对视觉和文本搜索的高档集成极地面增强了其推理才能。

Vision Search Assistant 的举座性能为 84.9%,比基线模子提高 +6.4%。这标明 Vision Search Assistant 在对话和推理任务中皆弘扬出色,使其在田园问答才能方面具有彰着上风。

论文:https://arxiv.org/abs/2410.21220

主页:https://cnzzx.github.io/VSA/

代码:https://github.com/cnzzx/VSA

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿本色‍

附上论文 / 形态主页流畅,以及琢磨姿色哦

咱们会(尽量)实时回复你

点这里� � 暖和我,铭刻标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再见 ~