潘禺：今年有另一场更值得关注的数学竞赛 - 学者观点

AI的数学能力

　　ChatGPT这样的大语言模型在简单的算术计算上会犯错，因为模型并不是从基本原理推导出答案，而是根据输入猜测最可能的输出，这种方法有时候并不奏效。GPT-4的研究人员测试了数百道国际数学奥林匹克（IMO）级别的问题，成功率只有1%，只有一个被简化后的特定问题答对了。大型语言模型在生成回答时依赖于训练数据中学习到的模式，尽管训练数据集非常庞大，但它们可能不包含足够的逻辑推理或数学证明的示例。

　　DeepMind的AlphaProof和AlphaGeometry 2这两个更专门的系统，这次的表现就好得多。

　　AlphaProof是用于形式化数学推理的系统，结合了预训练的语言模型和AlphaZero强化学习算法，也就是之前自学掌握了国际象棋、将棋和围棋的算法。它在Lean中训练自己证明数学陈述，并通过自动将自然语言陈述翻译成形式化的数学语言陈述，创建了一个不同难度的形式化问题库。AlphaProof通过在Lean中搜索可能的证明步骤来生成候选解决方案，然后证明或反驳它们。在IMO比赛前几周内，它证明或反驳了数百万问题进行自我训练，涵盖不同的难度和广泛的数学领域。

　　AlphaGeometry是一个神经符号系统，由神经语言模型和符号推导引擎组成，它们协同工作以查找复杂几何定理的证明。一个系统提供快速、 “直观 ”的想法，而另一个系统则提供更深思熟虑、更理性的决策。

　　语言模型擅长识别数据中的一般模式和关系，可以快速预测可能有用的结构，但通常缺乏严格推理或解释其决策的能力。符号推导引擎基于形式逻辑，并使用明确的规则来得出结论，但缓慢而不灵活。语言模型指导符号推导引擎寻找几何问题的可能解决方案，从无限的可能性中预测哪些像点、线或圆这样的新几何结构最有用。如果未找到解决方案，语言模型将添加一个可能有用的结构，为符号引擎开辟新的推导路径。此循环一直持续，直到找到解决方案。

　　这有点像诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考，快和慢》一书中提出的人类思维的两种系统，快速思考系统是一种快速、直觉式的思维方式，慢速思考系统是一种缓慢、逻辑性强、需要集中注意力的思维方式。

　　AlphaGeometry 2采用的符号引擎比上一代快两个数量级。当遇到新问题时，使用一种新的知识共享机制来实现不同搜索树的高级组合，以解决更复杂的问题。在今年的比赛之前，AlphaGeometry 2可以解决过去25年中83%的历史IMO几何问题，而上一代为53%。在今年的IMO 2024中，AlphaGeometry 2在收到形式化后的问题后，19秒内解决了第4题（下图，要求证明∠KIL 和 ∠XPY 之和等于 180°，AlphaGeometry 2 提议构造 E，即 BI上的一个点，使 ∠AEB = 90°）。

　　训练AlphaGeometry并不是依靠人工的示例，AlphaGeometry首先生成了10亿个几何对象的随机图形，并详尽地推导出每个图形中点和线之间的所有关系，找到每个图形中包含的所有证明，然后逆向工作以找出需要哪些额外的几何结构（如果有）来得出这些证明。数据经过过滤，排除相似示例，产生一个包含1亿个不同难度独特示例的最终训练数据集。有了这么多添加新几何结构而得到证明的例子，AlphaGeometry的语言模型，就能够在遇到奥数几何题时，为添加新结构提出很好的建议。

我们的教育做好准备了吗

　　教育对个人成长、社会进步和国家发展都至关重要，人工智能对教育的影响已经来临，过去的运作模式和利益结构早晚都将受到冲击。但或许是因为既有格局的根深蒂固，国内对这方面的讨论还不多，但只要想想，同样长期具备垄断性的传媒行业发生了多大变化，就很难忽视这种改变的前景。

　　人工智能已经深刻改变了媒体，当人们使用TikTok、抖音、今日头条之类的应用获取信息时，算法主导了内容的个性化推荐和分发。这一结果对传媒行业的影响非常明显，报纸、电视台等传统垄断机构无法再占据流量最大的传播渠道。

　　在教学上，AI同样已经做到了通过分析学生的学习进度、错误模式和知识漏洞，提供个性化的学习路径和习题练习。

　　比如，Khan Academy就使用机器学习算法，根据学生的答题记录提供个性化的题目推荐，使学习更具针对性。AI平台ALEKS通过自动化反馈机制帮助学生在练习中获得即时指导，并通过不同题型进一步巩固知识。在线平台DreamBox Learning提供自适应数学练习系统，学生的进度可以依据他们的实时表现进行调整，确保学习曲线与能力相匹配。

　　而在解题和题库方面，AI也已经有了不少实际应用。通过AI应用Socratic，学生可以拍摄问题，系统自动识别问题并提供相应的解答提示及详细的解题过程。Edmentum使用AI生成多样化的习题和测验，以帮助教师设计针对性的评估，节省教师设计练习题的时间。

　　如今，Google DeepMind在高难度的竞赛解题上取得突破，意味着对数学这样最重要的基础学科，通过AI的加持，使优质教育资源能充足提供，不再稀缺，技术上的障碍已经基本扫清。

　　Google正在基于Gemini开发一种自然语言推理系统，这意味着将不需要依赖人类专家将数学问题翻译成形式化的语言进行处理，能与其它AI系统顺利集成。当AI以自然语言解决数学问题后，科教系统的面貌必将改变。

　　中国教育有三大梦想，因材施教、教育公平和减负。

　　因材施教的障碍在于，没有尽全力尝试，许多人并不能认知到自己该走哪条路，家长也不愿接受孩子“是骡子还是马”。选择的迷雾加剧了赛道的狭窄，而AI能提供针对性的评估，有效改善个人天赋与才能的识别效率，帮助每个人更早更精准地定位和把握自己的比较优势。无论是利用图像识别技术的体育测评，还是基于机器学习的数学评估，AI会公正地帮助你判断自己。

　　AI的发展能否带来社会公平，这历来是一个有争议的问题。对于互联网科技公司来说，用户的增加意味着技术成本的摊薄。虽然话不能说绝对，但从过去的经验看，AI提供的教育资源，与别的互联网服务一样，也很可能是往普及方向发展的。这意味着，除了带来因材施教，AI将促进教育公平。

　　在减负上，AI也能发挥巨大作用。就像计算器对数学考试的影响，导致部分价值不大的计算在教学和考试中被舍弃，而更专注于考察数学思维、概念的理解和运用。AI的影响也有希望进一步优化教学和考试内容，减轻中国学生在某些解题套路上依靠“题海战术”达到“肌肉记忆”的内卷性消耗。

　　关注数学的人可能都知道今年国内的一些舆情。某竞赛初赛结果的争议彻底出圈了，某数学大师领衔的某书院的争议，则一直在小圈子内流传。但由于涉及到中国教育的金字塔结构和招考录取的指挥棒，后者对家长和学生的影响面其实并不小。

　　如果把这两件事放在一起看，这都说明了数学竞赛的门槛很高，数学研究的门槛更高，这条道路只适合极少数的人。这背后牵涉的讨论非常复杂，但这个结论大致不差。

　　为了挑选出这少数人，需要多数人的陪跑。这种陪跑不仅发生在基础教育阶段，很多数学竞赛的获奖者，在因此避开高考，获得了顶级学府的录取后，最终也都没有选择从事数学研究的道路，这也是网上“IMO金牌与菲尔兹奖”的老生常谈了。偏偏数学又是如此重要，社会在一定程度上容忍了投机与内卷的情况，而形成了鼓励“天才少年”的风气。但对每一个个体来说，内卷的代价要独自承受，成长选择的容错率都是有限的，缺少退路的攀登难以长久，“一将功成万骨枯”的情况伤害社会的总体利益，国家努力给教辅降温，阻止家庭为争夺教育资源而“升级军备竞赛”，背后也有这样的考量。

　　教育是强国之基，教育资源和住宅用地一样，人为制造出稀缺性，也许能够造成短期的产业繁荣，却可能埋下看不见的长久隐患，比如已经被一再讨论的原始创新不足问题。考虑人口结构的变化和高学历人口的规模，和住房一样，中国优质教育资源稀缺的时代终将过去。

　　目前，还很难说AI提供的充盈教育资源与个性化辅导，能不能动摇中国教育的金字塔结构，也不清楚教育领域的“今日头条”，这样的规则破坏者和秩序颠覆者会在什么时候出现。但最新的AI技术进展，一定会鼓励创业者与投资者摩拳擦掌，技术将又一次走在从业者和政策制定者的前面。