首页 > 湾得福 > 

百度搭子DuMate一天连登PinchBench与DeepResearch双榜首 成全球最能打的龙虾

2026-06-12 11:44:58   来源:敦化新闻网对韦建

荆楚网(湖北日报网)讯(通讯员 杜轩)5月8日凌晨,百度百度搭子DuMate登顶智能体评测基准PinchBench榜首,搭D打并在前5位中占据3席,连登龙虾盐城城南开发区新闻网超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。双榜首成在另外一项DeepResearch深度研究榜单中,全球DuMate同样位列第一。百度

PinchBench是搭D打OpenClaw赛道最能体现Agent真实工作能力的评测基准,重点考察Agent在23个真实工作场景下147个任务的连登龙虾多步推理、工具调用和任务闭环能力,双榜首成并从成功率、全球速度、百度盐城城南开发区新闻网成本三个维度综合排名。搭D打榜单显示,连登龙虾DuMate以93.3%和93.2%的双榜首成总成绩包揽前两名。作为对照,全球Anthropic和OpenAI的同款模型场景下的成绩分别为89.0%和91.6%。这意味着,同一模型在DuMate框架中,展现出更强的执行力。

图片1.png.png

百度搭子DuMate登顶智能体评测基准PinchBench榜首。通讯员供图

超越原生表现的技术基础,是DuMate的端云协同Harness架构。该系统在任务到达时进行意图识别和敏感度判断,隐私相关操作留在本地执行,复杂推理任务上云完成,无需用户手动切换。同时,系统对每次执行所需的上下文做按需组装——根据任务语义和用户历史行为,预判并注入必要的背景信息,减少冗余干扰。Harness与Skills还基于历史执行轨迹持续迭代,使得不同底层模型都能在接近其能力上限的状态下稳定运行。

DeepResearch Bench是当前对深度研究型Agent最全面的评测基准,从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。DuMate以58.03的综合分位列第一,支撑这一成绩的是DuMate自研Skills体系中的Deep Search与Deep Research双引擎——前者负责跨平台语义检索与高价值信息定位,后者在此基础上叠加多轮推理与因果分析,将碎片信息提炼为结构化研究成果。

图片2.png.png

百度搭子DuMate登顶智能体评测基准PinchBench榜首。通讯员供图

自2026年3月上线以来,DuMate保持一天一版的更新节奏,已通过信通院两项安全测评且均获最高等级。

  文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

生活

新春逛黄山许村:诗书传家,古村有戏更有味

王安石、欧阳修、朱熹、文天祥等名家,曾为这个村的宗族谱作序、跋,李白到访后也留下了“十里沙滩水中流,东西石壁秀而幽”的诗句。在古徽州大地,这个村落文气十足,却低调内敛,留着有风景有文化有故事的最美乡愁

国际军事

2024专精特新中小企业发展大会开幕 第三批专精特新专板名单出炉

size: 14px; line-height: 28px;">12月1日,2024专精特新中小企业发展大会在上海开幕。工业和信息化部党组书记、部长金壮龙致辞时表示,将健全与专精特新中小企业成长相适应

艺苑大观

邓之东:好事不留名 温暖传全城

合肥市长丰县吴山镇涂郢社区人“80”后邓之东,见义勇为,在车流不息的高架上勇敢救下轻生女子,积极协助民警使女子转危为安后不留名离开。经新闻报道后轰动全城,成为大家点赞的榜样,在江淮大地上谱写了一段温暖