frontiermath news - 搜索 News

IT之家 11 月 15 日消息，研究机构 Epoch AI 现公布了一款名为 FrontierMath 的全新 AI 模型数学基准测试集，旨在评估系列模型的数学推理能力。与现有诸如 GSM-8K、MATH 等测试题集不同，FrontierMath ...

腾讯网7 天

AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

然而，Epoch AI看不下去了，联手60多位顶尖数学家，憋了个大招——FrontierMath，一个专治LLM各种不服的全新数学推理测试！结果惨不忍睹，LLM集体“翻车”，正确率竟然不到2%！🤡 看看Epoch AI是怎么做的 ...

7 天

o1/Claude集体翻车，陶哲轩等60+顶尖数学家合力提出新数学基准，大 ...

一出手，曾在国际数学奥赛中拿下83%解题率的 o1模型就败下阵来，并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。一打听，这个新数学基准名为 FrontierMath ，由 Epoch ...

3 天on MSN

全新AI数学基准测试集FrontierMath出炉：现有模型难以应对复杂数学挑战

【ITBEAR】研究机构 Epoch AI 近日发布了一款全新的 AI 模型数学基准测试集，名为 FrontierMath。该测试集旨在全面评估 AI 模型的数学推理能力，尤其是面对复杂数学问题时的表现。与现有的数学测试题集如 GSM-8K 和 ...

7 天

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%，专家级数学 ...

近日，Epoch AI联合六十余位全世界的数学家，其中包括教授、IMO命题人、菲尔兹奖获得者，共同推出了全新的数学基准FrontierMath。其包括数百个原创的、格外具有挑战性的数学问题，旨在评估AI系统中的高级推理能力。

7 天

AI’s math problem: FrontierMath benchmark shows how far technology still has to go

FrontierMath, a new benchmark from Epoch AI, challenges advanced AI systems with complex math problems, revealing how far AI still has to go before achieving true human-level reasoning.

7 天

数学AI的挑战：新基准FrontierMath一把把大模型打得落花流水！

FrontierMath的出发点是对现有数学基准的反思。随着大模型在过去一年里积极“刷分”，其在数学基准上正确率甚至达到90%以上。这引起了学界的广泛讨论，认为现有基准可能受到污染或过于简单。EpochAI学者们感到有必要重建一个更具挑战性且能够真实反映AI能力的基准。因此，他们集结了众多数学顶尖人才，创造了数百道几乎前所未见的高难度数学题，涵盖从数论到代数几何的多个数学领域。

6 天

New secret math benchmark stumps AI models and PhDs alike

FrontierMath's performance results, revealed in a preprint research paper, paint a stark picture of current AI model ...

7 天

陶哲轩携手数十数学家推出FrontierMath，AI数学挑战成功率仅2%

据EpochAI的研究报告显示，这六个前沿模型在FrontierMath的表现尤其令人震惊，它们的成功率竟低于2%。OpenAI的研究科学家Noam Brown对此表示赞赏，认为这种低通过率显示了当前AI在数学处理方面的局限性。这一结果呼应了广泛存在的质疑：虽然许多大型语言模型（LLM）看似在处理数学问题上表现出色，但它们的能力常常被夸大。

6 天

Epoch AI Launches FrontierMath AI Benchmark to Test Capabilities of AI Models

Epoch AI highlighted that to measure AI's aptitude, benchmarks should be created on creative problem-solving where the AI has ...

当前正在显示可能无法访问的结果。

隐藏无法访问的结果