搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
过去 30 天
时间不限
过去 1 小时
过去 24 小时
过去 7 天
按时间排序
按相关度排序
2 天
on MSN
LLM 数学基准测试集 FrontierMath 公布:号称业界模型均败北
IT之家 11 月 15 日消息,研究机构 Epoch AI 现公布了一款名为 FrontierMath 的全新 AI 模型数学基准测试集,旨在评估系列模型的数学推理能力。 与现有诸如 GSM-8K、MATH 等测试题集不同,FrontierMath ...
3 天
广汽集团广州车展大放异彩,发布“番禺行动”剑指200万辆销量目标!
【ITBEAR】广汽集团在第22届广州车展上展现了强大的品牌实力,一口气发布了五款全新车型,覆盖了纯电、增程、插混等多个细分市场,为消费者提供了更为丰富的新能源车选择。同时,集团还宣布了未来三年的“番禺行动”计划,旨在推动自主品牌的发展,挑战2027 ...
3 天
美团全资投入500万美元,烟台新设科技公司布局AI基础软件开发领域
【ITBEAR】美团旗下全资子公司Xigua Limited近日在烟台成立了一家新科技公司——烟台汉骑科技有限公司。这家新兴科技公司的法定代表人为孙可青,注册资本为500万美元。
3 天
on MSN
全新AI数学基准测试集FrontierMath出炉:现有模型难以应对复杂数学挑战
【ITBEAR】研究机构 Epoch AI 近日发布了一款全新的 AI 模型数学基准测试集,名为 FrontierMath。该测试集旨在全面评估 AI 模型的数学推理能力,尤其是面对复杂数学问题时的表现。 与现有的数学测试题集如 GSM-8K 和 ...
Digital information world
4 天
Study: Major Companies Lag in Reporting Phishing Scams Using Their Brand Names
According to a new research by Drexel University and Arizona State University presented at the International Symposium on ...
Digital information world
4 天
Beyond Simple Math, AI Hits a Wall—FrontierMath Shows Where It’s Stuck
A new benchmark called FrontierMath is exposing how artificial intelligence still has a long way to go when it comes to ...
5 天
A new math benchmark just dropped and leading AI models can solve 'less than 2%' of its ...
While today's AI models don't tend to struggle with other mathematical benchmarks such as GSM-8k and MATH, according to Epoch ...
6 天
New secret math benchmark stumps AI models and PhDs alike
FrontierMath's performance results, revealed in a preprint research paper, paint a stark picture of current AI model ...
6 天
Topic: research papers
FrontierMath's difficult questions remain unpublished so that AI companies can't train against it. FrontierMath's difficult ...
6 天
Testing AI systems on hard math problems shows they still perform very poorly
A team of AI researchers and mathematicians affiliated with several institutions in the U.S. and the U.K. has developed a ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈