搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
腾讯网
3 天
LLM 数学基准测试集 FrontierMath 公布:号称业界模型均败北
IT之家 11 月 15 日消息,研究机构 Epoch AI 现公布了一款名为 FrontierMath 的全新 AI 模型数学基准测试集,旨在评估系列模型的数学推理能力。与现有诸如 GSM-8K、MATH 等测试题集不同,FrontierMath ...
腾讯网
7 天
AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%
然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招——FrontierMath,一个专治LLM各种不服的全新数学推理测试!结果惨不忍睹,LLM集体“翻车”,正确率竟然不到2%!🤡 看看Epoch AI是怎么做的 ...
7 天
o1/Claude集体翻车,陶哲轩等60+顶尖数学家合力提出新数学基准,大 ...
一出手,曾在国际数学奥赛中拿下83%解题率的 o1模型 就败下阵来,并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。 一打听,这个新数学基准名为 FrontierMath ,由 Epoch ...
3 天
on MSN
全新AI数学基准测试集FrontierMath出炉:现有模型难以应对复杂数学挑战
【ITBEAR】研究机构 Epoch AI 近日发布了一款全新的 AI 模型数学基准测试集,名为 FrontierMath。该测试集旨在全面评估 AI 模型的数学推理能力,尤其是面对复杂数学问题时的表现。 与现有的数学测试题集如 GSM-8K 和 ...
7 天
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%,专家级数学 ...
近日,Epoch AI联合六十余位全世界的数学家,其中包括教授、IMO命题人、菲尔兹奖获得者,共同推出了全新的数学基准FrontierMath。其包括数百个原创的、格外具有挑战性的数学问题,旨在评估AI系统中的高级推理能力。
7 天
AI’s math problem: FrontierMath benchmark shows how far technology still has to go
FrontierMath, a new benchmark from Epoch AI, challenges advanced AI systems with complex math problems, revealing how far AI still has to go before achieving true human-level reasoning.
7 天
数学AI的挑战:新基准FrontierMath一把把大模型打得落花流水!
FrontierMath的出发点是对现有数学基准的反思。随着大模型在过去一年里积极“刷分”,其在数学基准上正确率甚至达到90%以上。这引起了学界的广泛讨论,认为现有基准可能受到污染或过于简单。EpochAI学者们感到有必要重建一个更具挑战性且能够真实反映AI能力的基准。因此,他们集结了众多数学顶尖人才,创造了数百道几乎前所未见的高难度数学题,涵盖从数论到代数几何的多个数学领域。
6 天
New secret math benchmark stumps AI models and PhDs alike
FrontierMath's performance results, revealed in a preprint research paper, paint a stark picture of current AI model ...
7 天
陶哲轩携手数十数学家推出FrontierMath,AI数学挑战成功率仅2%
据EpochAI的研究报告显示,这六个前沿模型在FrontierMath的表现尤其令人震惊,它们的成功率竟低于2%。OpenAI的研究科学家Noam Brown对此表示赞赏,认为这种低通过率显示了当前AI在数学处理方面的局限性。这一结果呼应了广泛存在的质疑:虽然许多大型语言模型(LLM)看似在处理数学问题上表现出色,但它们的能力常常被夸大。
6 天
Epoch AI Launches FrontierMath AI Benchmark to Test Capabilities of AI Models
Epoch AI highlighted that to measure AI's aptitude, benchmarks should be created on creative problem-solving where the AI has ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果
反馈