AI 是如何识别一只猫的?——图解神经网络的秘密
AI 不会“看猫”,它只是学会在高维空间里划一条正确的线。
🧭 导语
我们人类看一眼就能认出一只猫,但让计算机做到同样的事却出奇地难。
过去,程序员试图用代码描述“猫”的样子:尖耳朵、胡须、圆眼睛……但无论怎么写,都不能涵盖所有可能。
如今的人工智能却能轻松识别照片中的猫,而秘诀就在——神经网络(Neural Networks)。
本文根据 Quanta Magazine 的插图科普文《How Can AI ID a Cat? An Illustrated Guide》改写,用最直观的方式告诉你:AI 是怎么“学会看”的。
🧩 一、从地图到猫:AI 的分类直觉
想象一张虚构地图,有两个区域:
三角洲领地(Triangle Territory) 与 方形州(Square State)。
我们知道一些点属于三角洲,有些属于方形州,但不知道它们的边界。
任务是:给定一个新点,判断它属于哪个区域?
这其实就是一个「分类任务(classification task)」:
AI 要找到那条分界线(decision boundary)。
猫识别的原理其实一模一样,只是输入从“经纬度坐标”变成了“图片像素”。
⚙️ 二、一个神经元能做什么?
一个神经元其实就是一个数学函数:
它接收若干输入(例如两个坐标或像素值),输出一个结果(接近 0 或 1)。
- 输出接近 1 → 表示“是猫”
- 输出接近 0 → 表示“不是猫”
神经元通过 三个参数 控制行为:
- 两个 权重(weights) 决定输入的重要性;
- 一个 偏置(bias) 控制整体倾向。
不同参数,对应不同“分界线”。
这条线,就是 AI 分类世界的方式。
🔁 三、训练:让 AI 自己找出正确的线
最开始,神经元的参数是随机的。它画出的边界线也一团糟。
训练过程,就是 AI 反复:
- 输入训练数据(已知标签的点或猫图像);
- 计算预测输出;
- 对比真实答案;
- 自动微调参数。
经过成千上万次迭代,神经元最终找到最优边界。
这个过程叫 训练(training),其核心算法就是 梯度下降(gradient descent)。
🕸️ 四、从一个神经元到一个网络
单个神经元只能画出直线。
但现实世界的边界往往弯曲复杂——于是我们把许多神经元连接起来,组成「神经网络(neural network)」。
网络由多层构成:
- 输入层:接收原始像素数据;
- 隐藏层:抽取特征(边缘 → 形状 → 脸型);
- 输出层:给出判断(猫 or 非猫)。
多层网络能在数学空间中画出复杂边界,从而正确区分猫、狗、桌布甚至咖啡杯。
📸 五、从二维到数千维:像素的世界
把一张 50×50 的灰度图看作输入,每个像素都是一个数。
整张图共有 2,500 个输入维度。
因此,每张猫图像就是一个 2,500 维空间中的点。
所有猫的照片聚成一个复杂的“猫区域”。
AI 训练的目标就是:
找出包围“猫区域”的那条高维边界。
新图片一旦落入这个区域,AI 就判断它是猫。
🌍 六、不止识猫:神经网络的通用魔法
同样的原理可以应用于:
- 🔭 天文学:识别星系、行星;
- 🧬 医学影像:检测癌细胞;
- ✍️ 手写识别与语音识别;
- 💬 语言模型(如 ChatGPT):输入与输出是数字化的“词向量”。
虽然形式不同,但本质相同:
AI 从数据中学习模式,而非靠人工设定规则。
🧠 七、AI 真的理解“猫”吗?
文章最后指出一个深刻问题:
神经网络能识别猫,却未必“理解”猫。
它们能准确区分,却无法解释“为什么”。
这就是当前 AI 研究的热点——可解释性(Interpretability)。
我们知道 AI 有效,但未必知道它“如何有效”。
✨ 八、总结一句话
AI 不会看猫,它只是学会在高维空间中划线。
AI 的强大在于——不是被编程去识别世界,而是被训练去发现世界的结构。