首页 > 汽车频道 > 汽车频道 > 9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

发布时间:2024-07-19 16:28:18来源: 15210273549

导读

一道小学生的数学题竟然难倒了全球AI大模型,只有4个大模型给出了正确答案!这究竟是怎么一回事?快来看看!

 

全球AI大模型被一道小学生数学题难倒

日前,一道来自小学生的数学题却难倒了不少海内外AI大模型,这道题的内容是“9.11和9.9哪个更大”,而仅有4个大模型给出了正确答案。

 

挑战大模型的数学推理能力

大模型的数学能力一直是短板,即便是目前最好的大模型GPT4也仍然有很大进步空间,而此前笔者在采访12位大模型时也得出了一个惊人的结论,这些大模型中仅有4个回答是正确的,而其他8个大模型却都给出了错误的答案。

 

数字切分问题与模型的理解能力

而针对大模型的数学能力,笔者曾进行过深入的采访,大部分行业人士认为大模型数学能力差的根本原因还是出在分词上,即Tokenizer(分词器)在处理数字时会出现问题,导致模型难以正确理解和计算。

 

正确答案揭晓与未来的发展方向

而这道9.11和9.9的大小比较题,12个大模型中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,其他8个大模型都认为9.11比9.9更大。

 

虽然最终4个大模型给出了正确答案,但这并不能掩饰大模型数学能力的薄弱,毕竟面对简单的大小比较题,8个大模型都给出了错误答案。

 

而对于未来大模型的发展方向,笔者也咨询了不少专家学者以及从业者,针对此前大模型的回答,不少人表示“并不意外”。

一些专家认为,未来在模型的训练数据上会越来越依赖构造型的数据,而不是直接爬取下来的数据,以提升模型的复杂推理能力。

 

因为直接爬取下来的数据中会夹杂大量的错误数据,这些错误数据会误导模型,导致模型做出错误的判断。

而构造型的数据则可以事先筛选,保证数据的准确性和可靠性,从而培养模型健康的思维方式。

汽车频道更多>>

2025年宜昌市“招才兴业”教育系统事业单位人才引进校园招聘公告•湖南师范大学站(36人) 2024年四川省生态环境监测总站招聘劳务人员公告 2024年庆阳市交通运输局所属事业单位选调工作人员公告 2024年江西省发展改革委委属事业单位招聘工作人员公告 纯电K-CAR要来了,五菱打造,堪称MINI EV放大版 起亚EV4内饰谍照曝光,配一体式双联屏+双辐式方向盘 海豚最强对手来袭,后驱+宁德时代电池,顶配不到10万 特斯拉Model Y最新谍照来了,牌照框有变化,续航或超800km 上汽奥迪A5L要来了,谍照已曝光,配华为智驾,最早25年初上市 全新大众途昂PRO内饰谍照曝光,屏幕更大,还配副驾娱乐屏 定位中大型MPV的广汽丰田赛那,搭载2.5L油电混动,实力表现如何 6.99万元起,搭载1.4T+7DCT的长安逸动PLUS高能版实力表现如何? 想要购入一台红旗HS5,先来看一看其首年用车成本表现如何 零跑C01:15万多的中大型车,配三联屏+增程动力,其实力表现如何 月销量破3万台,零跑汽车再“突破”,零跑C16的这五点表现亮眼? 拒绝插混技术「宣传霸凌」,英仕派PHEV和汉DM-i用长途实测比高低 没买车可以看看,宝骏云海荣获2项国字号认证,安全、泊车两手抓 宝骏云海上市,售价10.98万起,全面性的表现让同级对手怎么比? 2025 款福特 Bronco Stroppe 版灵感源自传奇的 Baja Racer 比亚迪的薄利多销魔法,卷出新高度,赢在未来 日产发布全新第四代Murano(楼兰),将抛弃CVT 丰田汽车与波士顿动力合作 推进AI人形机器人技术 丰田研究所与波士顿动力合作,推进机器人大规模行为模型等研究 全面升级 吉利中国星东方曜双子新车解读 一汽奥迪以专家造车,打造全周期高品质用车体验 谷歌安卓15引入“空间大师”功能,128GB存储也能拥抱海量应用 华硕笔记本电脑质量怎么样?四款华硕笔记本推荐,真香选择 苏姿丰等亮相联想Tech World:我们正进入最激动人心的创新时代 史无前例,英特尔和AMD在联想“撮合”下合作了 产业链协同视角下的理想汽车:国产豪华品牌高质量发展的先锋