搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
腾讯网
3 天
LLM 数学基准测试集 FrontierMath 公布:号称业界模型均败北
IT之家 11 月 15 日消息,研究机构 Epoch AI 现公布了一款名为 FrontierMath 的全新 AI 模型数学基准测试集,旨在评估系列模型的数学推理能力。与现有诸如 GSM-8K、MATH 等测试题集不同,FrontierMath ...
腾讯网
7 天
AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%
然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招——FrontierMath,一个专治LLM各种不服的全新数学推理测试!结果惨不忍睹,LLM集体“翻车”,正确率竟然不到2%!🤡 看看Epoch AI是怎么做的 ...
7 天
o1/Claude集体翻车,陶哲轩等60+顶尖数学家合力提出新数学基准,大 ...
一出手,曾在国际数学奥赛中拿下83%解题率的 o1模型 就败下阵来,并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。 一打听,这个新数学基准名为 FrontierMath ,由 Epoch ...
3 天
on MSN
全新AI数学基准测试集FrontierMath出炉:现有模型难以应对复杂数学挑战
【ITBEAR】研究机构 Epoch AI 近日发布了一款全新的 AI 模型数学基准测试集,名为 FrontierMath。该测试集旨在全面评估 AI 模型的数学推理能力,尤其是面对复杂数学问题时的表现。 与现有的数学测试题集如 GSM-8K 和 ...
7 天
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%,专家级数学 ...
近日,Epoch AI联合六十余位全世界的数学家,其中包括教授、IMO命题人、菲尔兹奖获得者,共同推出了全新的数学基准FrontierMath。其包括数百个原创的、格外具有挑战性的数学问题,旨在评估AI系统中的高级推理能力。
Yahoo
5 天
A new math benchmark just dropped and leading AI models can solve 'less than 2%' of its ...
Which is why mathematical benchmarks exist. Benchmarks such as FrontierMath, which its maker, Epoch AI, has just dropped and ...
7 天
数学AI的挑战:新基准FrontierMath一把把大模型打得落花流水!
FrontierMath的出发点是对现有数学基准的反思。随着大模型在过去一年里积极“刷分”,其在数学基准上正确率甚至达到90%以上。这引起了学界的广泛讨论,认为现有基准可能受到污染或过于简单。EpochAI学者们感到有必要重建一个更具挑战性且能够真实反映AI能力的基准。因此,他们集结了众多数学顶尖人才,创造了数百道几乎前所未见的高难度数学题,涵盖从数论到代数几何的多个数学领域。
6 天
New secret math benchmark stumps AI models and PhDs alike
FrontierMath's performance results, revealed in a preprint research paper, paint a stark picture of current AI model ...
7 天
陶哲轩携手数十数学家推出FrontierMath,AI数学挑战成功率仅2%
据EpochAI的研究报告显示,这六个前沿模型在FrontierMath的表现尤其令人震惊,它们的成功率竟低于2%。OpenAI的研究科学家Noam Brown对此表示赞赏,认为这种低通过率显示了当前AI在数学处理方面的局限性。这一结果呼应了广泛存在的质疑:虽然许多大型语言模型(LLM)看似在处理数学问题上表现出色,但它们的能力常常被夸大。
6 天
Epoch AI Launches FrontierMath AI Benchmark to Test Capabilities of AI Models
Epoch AI highlighted that to measure AI's aptitude, benchmarks should be created on creative problem-solving where the AI has ...
VentureBeat
7 天
AI’s math problem: FrontierMath benchmark shows how far technology still has to go
A groundbreaking new benchmark, FrontierMath, is exposing just how far today’s AI is from mastering the complexities of higher mathematics. Developed by the research group Epoch AI, FrontierMath ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈