
每当有人问我AI是否比其他任何人都聪明时,他都会只用一个句子保持安静。也就是说,哪个更大,9.11或9.9?自去年以来,一些网民发现了这个大小的虫子,这个人可能是一个真正的问题。对于AI,例如提出问题。比我的女朋友和你妈妈要我先救我更难回答。因此,每次出现新的AI时,网民都会尝试这个问题。直到今天,其中1/3在2025年已经过去了,仍然有AIS不正确。但是,要理解AI在数学方面的愚蠢为什么,我们仍然需要从AI的角度进行交谈。当您告诉AI时,哪个更大,9.11或9.9? “,眼中没有数字,而是单词的片段。例如,“ 9.11”将在[token_9,token_dot,token_11]中被销毁,而“ 9.9”将在[token_9,token_9,token_dot,token_9]中被销毁,第一个反应是第一个反应,请理解是9.11的第9.11页。
众所周知,AI中的所有内容口中是从各种在线信息中学到的,该“网络”是由程序员“创建”的,因此,当AI了解更多这些工作人员时,它的大脑就会成为他人的形状。
因此,当我看到9.11和9.9时,AI可能不会将这两个数字视为数学中的十进制比率,而是弦,版本编号,甚至飞机撞到双子塔的前一天。
此外,AI现在引入了注意机制,因此该系统对Token_11进行了极大的关注,Token_11可以象征日期,字符串和版本号,而不是将整体视为9.11。
因此,AI完成了此问题,并将两个Tokesn进行了比较:
“ 9” =“ 9”,“。”。 =“。”,“ 11”“ 9”,案例已解决,9.11大于9.9。
如果您有任何朋友,您可能会问,诸如OpenAi-O1之类的推理模型都不说奥林匹克运动会的数学问题能够做到吗?他们怎么知道这些数学?
不确定您是否应该说。
本月初的角色研究来自我等领先的机构NNAT和ETH ZURICH等表明,大多数大型模型都说奥林匹亚的数学问题正在做事,使算术填补了算是空白的问题。
当研究人员更改银行问题以回答问题时,他们发现从DeepSeek-R1到OpenAi-O1Pro,即使是新发布的Claude3.7,也只能得到几分(完整得分)7分)。 。 。
最小的这些大型模型的回收记录,研究人员发现这些模型也彼此适用。
例如,在证明几何形状的问题时,所有模型对假设的不同定理都谨慎,然后使用定理定理解决问题,最终它们都是错误的。
例如,O3米尼直接假设一个点位于特定圆的外部,但实际上必须在内部,因此具有切线的模型制作的模型是完全错误的。
Gemini-7.5-Pro更加生气。它在讨论过程中写下表达式,然后使用表达式作为参考证明这一点。 。 。
尽管这可能是由于模型的随机性造成的,但更无语的是,这些大型模型通常是mheadaches。
即使您在这里说这是错误的,它也不会破坏其原始的固定思维方式,并且总是将自己挂在树上。
在所有失败的分布中,几乎一半的原因是由于爱错误。是的,这些说推理的大型模型在纯粹的推理时会失败。 。 。
例如,对于一个需要验证所有数据符合特定性质的问题,Claude 3.7模型仅证明一个模型,并直接指出它们都符合这种性质。中间没有归纳或促销步骤,所以它很固执。
换句话说,这些模型似乎正在研究,但实际上它们没有深入思考的能力。当然,这是由于变压器问题和大型ModSlanguage Elo的常见问题所致。
对于变压器模型,它实际上释放了PO的相应文字符号令牌之间的可疑性和重量。它在符号的统计组织中运行,预测了“给定的先前符号,其符号更有可能之后”,而不是理解和实施抽象的数学公理。
因此,在本文的结尾,研究人员得出结论,当前的LLM不足以完成严格的数学推理工作,这表明需要显着提高发电和证明生成能力。
换句话说,AI确实擅长模仿,但它远非真正的理解和创造。 AI仍然没有能力思考和放弃像人类这样的数学。
但更重要的是,AI的数学缺陷确实是因为符号和理解的分离。
尽管它将学会以整洁的方式回答您,但它只是语言模式的副本,这与准确的数学逻辑不同,人类语言本身充满了歧义。
维特根斯坦说:“博语言的意思是世界的边界。“对我们的人来说,数字不是我们面前的黑白符号。“ 9”是九个苹果,“ 0.11米”是您对领导者的量度。这些概念来自您与世界的关系。
但是,语言无法描述这些经历有多少,因为AI不了解他的话“亲爱的”,这会伤害您的心。
当DeepSeek最近几个月大火时,有人问DeepSeek成为一个男人会怎么做? DeepSeek说,它想在大雨下进行大雨,熬夜学习,经历分手并承认这将犯错。
实际上,这现在是一定程度的AI,而您和我作为人们。
生命的意义不是要让您成为犯错的机器,而是要完全专注于这一笑声,眼泪,成功和失败的旅程,充满了不确定性。似乎是普通的,不合理的经历,构成了一个人的生活:丰富,复杂,充满经验并不断变化。
因此,下次,当您可以轻松地确定9.9大于9.11时,您也可以暂停并感觉到在其背后的人类的深度和运气。
毕竟,在这个广阔的宇宙中,思考,感觉,爱和体验生活本身就是我们生存的奇迹。
撰写:纳克西
编辑:Jiangjiang Noodle系列
编辑:Huyanyan
图像,资源:
patunay o bluff?检查LLM到2025 USA MATH OLYMPIAD
多模式大语言模型的合理限制。关于邦加德问题的研究
证据的出现:数学的奥秘,揭示了人工智能的惊奇
Openai平台,小舒,Zhihu等。