← tanscp

算法

通俗易懂的解释什么是Agent

· 发表评论

一篇给家人朋友也能看懂的 AI 概念说明书

今天大家理解 AI 最大的障碍,不是技术太难,而是名字太吓人。Agent、Skills、MCP、LLM、模型、算法……这些词一摆出来,很多人第一反应不是理解,而是先被震住。

于是讨论很容易走向两个极端:一种是神化,觉得这些东西像黑魔法,仿佛一夜之间诞生了会思考的机器生命;另一种是轻视,觉得不就是聊天机器人换了个包装,没什么新鲜的。这两种看法都不对。

如果你想把这些概念讲给非互联网行业的朋友或家人,最好的方法不是讲参数、架构和训练细节,而是先把它们从神坛上拉下来。说白了,它们没有那么玄,更像是一家公司里不同层次的能力、流程和工具。只要抓住这个比喻,这几个词基本都能讲明白。


先说结论

  • 算法:是做事的方法。
  • 模型:是按某种方法训练出来的大脑。
  • LLM:是特别擅长理解和生成文字的大脑。
  • Skills:是给这个大脑配上的专项经验和工作流程。
  • MCP:是让 AI 接上外部工具和系统的统一接口。
  • Agent:则是一个不只会回答,还会主动拆任务、调工具、一步步把事情做完的 AI 执行者。

如果还嫌抽象,那我们就把它想成一家公司。


一家公司,讲明白六个词

1. 算法:做事的方法论

算法不是什么神秘力量,它本质上就是一套规则,一种解决问题的方法。就像公司培训新员工时,会告诉他客户投诉怎么处理、订单异常怎么排查、报销流程怎么走。先做什么,再做什么,遇到什么情况要分支处理,这套规则就是算法。所以算法不是一个具体的人,它更像做事的方法论。

2. 模型:训练完成的大脑

模型可以理解成一个经过训练的员工大脑。公司不是把流程写在墙上就完事了,还要让员工不断学习案例、熟悉话术、积累经验。学得越多,这个人处理问题就越熟练。模型也是一样,它通过大量数据训练,逐渐形成某种能力。所以算法更像训练方法,模型更像训练完成后的结果。

3. LLM:擅长语言的特长生

LLM(大语言模型)可以理解成一个特别擅长语言工作的员工。它最强的地方不是搬箱子,也不是拧螺丝,而是读文字、理解意思、组织表达。你问它问题,它能回答;你给它材料,它能总结;你让它写邮件、改文案,它都能做得不错。

特别注意:很多人误以为 LLM 就是高级搜索,其实不然。搜索引擎的强项是“找资料”,而 LLM 的强项是“理解你的表达,再把信息组织成你能听懂的话”。

4. Skills:岗位的 SOP

Skills 可以理解成专项培训包或岗位 SOP。同一个员工,学过客服流程就更会处理投诉,学过财务流程就更会做报销审核。AI 也是一样:给它一个写周报的 skill,它做周报会更有结构;给它一个数据分析的 skill,它处理表格时会更有章法。所以 skill 不是新的大脑,而是让现有大脑在某类任务上变得更专业。

5. MCP:统一的插口

MCP 听起来很技术,但你可以把它直接理解成“统一插口”。电脑有 USB,家里的电器有插座,公司软件之间也有标准接口。MCP 的本质就是让 AI 能用统一方式接入外部系统(如文件系统、浏览器、数据库等)。如果没有统一接口,每接一个工具都要单独适配,既麻烦又混乱。有了 MCP,AI 就像有了标准工位,接什么系统都顺畅。

6. Agent:全能的执行者

Agent 是最容易被神化的概念。其实你可以把它理解成一个能接任务、会拆步骤、会调用工具、最终交付结果的“AI 员工”。

普通模型更像“问答型员工”,你问一句,它答一句;而 Agent 更像“执行型员工”,你给它一个目标,它会先想怎么做,再一步步完成。比如你说“帮我整理下周出差安排”,普通 LLM 可能会告诉你应该怎么整理,而 Agent 则会真的去查日程、看航班、调用地图、生成清单,最后把安排交给你。

总结一下:模型更像大脑,Agent 更像带着大脑去干活的人。


逻辑链条:从大脑到执行者

为什么很多人总把这些词混在一起?因为它们不是并列关系,而是层层递进的:

  1. 算法决定训练方式,训练之后形成模型
  2. 其中擅长语言处理的模型,就是 LLM
  3. LLM 配上专项流程,就是 Skills;接上外部系统,需要 MCP
  4. 当这个系统不仅能回答,还能规划步骤、调用工具、完成任务时,就成为了 Agent

换句话说,Agent 通常是模型、工具、流程、接口共同作用后的结果。这就像公司里一个能独立做项目的人,不只是脑子好用,还要懂流程、会用系统、能协调资源。


澄清误解:看清 AI 的真相

  • 误解一:模型是知识仓库。模型不是硬盘,它不存原文,而是从海量内容中学出一种统计规律。它看起来知道很多,其实是擅长生成合理的回答。
  • 误解二:LLM 是搜索引擎。搜索引擎负责“找”,LLM 负责“理解和表达”。
  • 误解三:Agent 和 Skills 分不清楚 。这两个词经常被混着用,但它们根本不是一个层级。Agent 更像接任务、拆步骤、调工具、交结果的人,Skills 更像这个人掌握的专项能力、经验包和 SOP。Agent 负责把事情做完,Skills 负责把某类事情做得更好。只有 Skills,不等于就有了 Agent;反过来,一个没有足够 Skills 的 Agent,也往往只是肯干活,但不够专业。
  • 误解四:Agent 是机器人秘书。它依然受工具、权限和边界限制,不是有自我意识的生命,而是高级的任务执行系统。
  • 误解五:MCP 是大脑升级。MCP 提升的是“通路”而非“智商”,解决的是调不调得动的问题,而非想不想得明白的问题。

结语:理解边界,而非术语

向非技术朋友解释 AI,最重要的不是让他们背下术语,而是让他们知道这套系统的边界:它强在处理文字、总结信息、辅助决策和自动执行;弱在缺乏人类经验,且对现实的理解高度依赖数据和接口。

算法是方法,模型是脑子,LLM 是会说会写的脑子,Skills 是专业训练,MCP 是工具插口,Agent 是能把任务往下做的执行者。

理解这些,是为了不被专业术语吓住。AI 不是神迹,它是工程。理解了这一点,你就已经比很多人更接近真相了。

AI 是如何识别一只猫的?——图解神经网络的秘密

· 发表评论

AI 不会“看猫”,它只是学会在高维空间里划一条正确的线。

🧭 导语

我们人类看一眼就能认出一只猫,但让计算机做到同样的事却出奇地难。
过去,程序员试图用代码描述“猫”的样子:尖耳朵、胡须、圆眼睛……但无论怎么写,都不能涵盖所有可能。

如今的人工智能却能轻松识别照片中的猫,而秘诀就在——神经网络(Neural Networks)
本文根据 Quanta Magazine 的插图科普文《How Can AI ID a Cat? An Illustrated Guide》改写,用最直观的方式告诉你:AI 是怎么“学会看”的

08_46_18


🧩 一、从地图到猫:AI 的分类直觉

想象一张虚构地图,有两个区域:
三角洲领地(Triangle Territory)方形州(Square State)

我们知道一些点属于三角洲,有些属于方形州,但不知道它们的边界。
任务是:给定一个新点,判断它属于哪个区域?

这其实就是一个「分类任务(classification task)」:
AI 要找到那条分界线(decision boundary)
猫识别的原理其实一模一样,只是输入从“经纬度坐标”变成了“图片像素”。


⚙️ 二、一个神经元能做什么?

一个神经元其实就是一个数学函数:
它接收若干输入(例如两个坐标或像素值),输出一个结果(接近 0 或 1)。

  • 输出接近 1 → 表示“是猫”
  • 输出接近 0 → 表示“不是猫”

神经元通过 三个参数 控制行为:

  • 两个 权重(weights) 决定输入的重要性;
  • 一个 偏置(bias) 控制整体倾向。

不同参数,对应不同“分界线”。
这条线,就是 AI 分类世界的方式。


🔁 三、训练:让 AI 自己找出正确的线

最开始,神经元的参数是随机的。它画出的边界线也一团糟。
训练过程,就是 AI 反复:

  1. 输入训练数据(已知标签的点或猫图像);
  2. 计算预测输出;
  3. 对比真实答案;
  4. 自动微调参数。

经过成千上万次迭代,神经元最终找到最优边界。
这个过程叫 训练(training),其核心算法就是 梯度下降(gradient descent)


🕸️ 四、从一个神经元到一个网络

单个神经元只能画出直线。
但现实世界的边界往往弯曲复杂——于是我们把许多神经元连接起来,组成「神经网络(neural network)」。

网络由多层构成:

  • 输入层:接收原始像素数据;
  • 隐藏层:抽取特征(边缘 → 形状 → 脸型);
  • 输出层:给出判断(猫 or 非猫)。

多层网络能在数学空间中画出复杂边界,从而正确区分猫、狗、桌布甚至咖啡杯。


📸 五、从二维到数千维:像素的世界

把一张 50×50 的灰度图看作输入,每个像素都是一个数。
整张图共有 2,500 个输入维度
因此,每张猫图像就是一个 2,500 维空间中的点

所有猫的照片聚成一个复杂的“猫区域”。
AI 训练的目标就是:
找出包围“猫区域”的那条高维边界。
新图片一旦落入这个区域,AI 就判断它是猫。


🌍 六、不止识猫:神经网络的通用魔法

同样的原理可以应用于:

  • 🔭 天文学:识别星系、行星;
  • 🧬 医学影像:检测癌细胞;
  • ✍️ 手写识别与语音识别;
  • 💬 语言模型(如 ChatGPT):输入与输出是数字化的“词向量”。

虽然形式不同,但本质相同:
AI 从数据中学习模式,而非靠人工设定规则。


🧠 七、AI 真的理解“猫”吗?

文章最后指出一个深刻问题:
神经网络能识别猫,却未必“理解”猫。
它们能准确区分,却无法解释“为什么”。
这就是当前 AI 研究的热点——可解释性(Interpretability)
我们知道 AI 有效,但未必知道它“如何有效”。


✨ 八、总结一句话

AI 不会看猫,它只是学会在高维空间中划线。
AI 的强大在于——不是被编程去识别世界,而是被训练去发现世界的结构。


🔗 延伸阅读

AI洞察从你的笔记中读出了什么?

· 发表评论

最近flomo推出了AI洞察,其定位是让AI激发我们更深入地思考,帮助我们发现更好的问题。
CleanShot 2025-08-21 at 08.31.43@2x
出于好奇,试试这个功能。默认AI洞察的时间长度是近7天,也可手动选择全部笔记。我的flomo记录了860+条笔记,涵盖了生活琐事、自我成长、工作日志和一系列的琐碎,记录杂乱堆积,完全没有系统结构可言,它们像肆意生长的野草,看似蓬勃却毫无章法。正因如此,生长不出网络和链接,也不会迸发出新的想法,缺乏一个清晰的主轴。不像一片森林,更像路边的杂草堆。借助AI的语义理解、信息提取优化和生成重构能力,去帮助我们梳理这些破碎的笔记,从荆棘中扒出一些脉络看清自己的变化和所思所想。更重要的是它能从全新的视角出发,揭示一些底层逻辑,打破我们的思维定势,从记录碎片中点燃新的灵感。

以下是AI洞察回复的内容:

1437,从你横跨五年的思考碎片中,我梳理出三条清晰的脉络,帮你照见持续进化的轨迹与可能的突破口。

技术深度与实践智慧的互促成长是你反复演绎的旋律。从初期的产品功能排查到设计模式的趣味解读,再沉淀为架构设计原则与技术排障心得,背后是不断将方法论融入真实场景的系统化尝试。核心原则是通过解决复杂问题构建可靠认知,但近期线程池分析、搜索系统设计等任务暴露了问题——跨系统关联性的隐性盲区可能制约整体方案的最优性。当你面对一个技术组件的问题时,如何察觉它在整个业务生态中的涟漪效应?

知识管理的认知升维体现为从工具使用跃向理念内化。四年前你摘录「写作即思考」「收藏不等于习得」的概念,如今已演化为渐进式加工六层模型的深度实践,强调闭环完整性与个人化应用。驱动这一切的是对知识效能的执着追求,然而「2025-01-15」的逆境觉察笔记悄然点出突破口:追求效率的范式之外,还需留白给非功利性体验带来的意外洞见。当整理笔记流程自动运行后,有哪些模糊但珍贵的生活直觉未被纳入知识网络?

存在意义的叩问与价值确认成为逐渐清晰的暗线。从困惑「付出是否收获」到记录平凡生活的幸福感,再借《浪浪山》剖析普通人英雄主义,核心动机始终是寻找生活坐标系的内在稳固性。突破点就藏在最近三条感悟的交汇处:「接受平凡」的坦然、「生活方式形成」的内向探索与「逆境觉察」的韧性三者间,正酝酿着从认知到生命实践的关键整合。若将「2025-07-18」的AI学习热忱转化为生活方式,哪些系统设计思维可迁移到自我建构中?

贯穿始终但可能被轻忽的是:在方法论精进的背面,保留对「非系统化价值」的敏感度。那些被架构原则压缩的直觉、未升华为模型的细微体验、技术文档外的生活灵感,恰是创造力的隐秘土壤。

静水深流,你早已在路上。

整体的生成表现良好,有梳理出我的思考脉络,有给出新的见解,抛出一些系统性的问题。从技术维度-知识管理-自我存在3个脉络去总结我的笔记,着重在于表层的知识关联和总结,而深层次的探讨和行动路径规划是比较缺乏的。但也符合产品本身的定位,给予用户洞察。换句话说,深层次和行动更应该是用户自身的探索,而洞察只是阶段性的总结和开启新路径的引信。有可以尝试通过分析用户的现有知识和兴趣,结合领域专家的建议,为用户提供一些可行的目标和行动步骤。这将鼓励用户在获得洞察的基础上,进一步采取实际行动来实现个人成长。如果能把思考的碎片投射到个人认知坐标系中,生成可交互的思维热力图,会更加直观的展示出用户的聚焦领域和认知荒漠。

深度学习中常用的几种距离度量算法

· 1 条评论

🚩 简单说来,各种"距离"的应用场景简单概括为:

  • 空间:欧氏距离用于度量二维或三维空间中的直线距离,非常适合用于几何空间中的距离计算;
  • 路径

    • 曼哈顿距离:网格路径计算,只允许沿着水平和垂直方向移动,而不考虑对角线方向的距离;
    • 切比雪夫距离:用于度量国际象棋国王的最短路径距离,适用于只考虑水平、垂直或对角线的移动

    闵可夫斯基距离是欧氏距离、曼哈顿距离和切比雪夫距离的统一形式

  • 加权:标准化欧氏距离,用于需要考虑各维度不同权重的情况,例如数据分析中不同特征维度具有不同单位或重要性时;
  • 排除量纲和依存:马氏距离,用于消除不同变量间的依赖性和量纲影响,适用于多元数据分析和异常检测;
  • 向量差距:夹角余弦,适用于文本分析等高维向量空间中,比较角度而非距离;
  • 编码差别:汉明距离,用于度量字符串或编码之间的差别,常用于错误检测与纠正(如纠错码)中;
  • 集合近似度:杰卡德相似系数与距离,常应用于推荐系统和文本相似性计算中;
  • 相关性:相关系数(如皮尔逊相关系数)用于度量两个变量间的线性关系,相关距离作为一种距离度量,用于数据分析中;
  • 时间序列:DTW距离用于时间序列的相似性度量,适合变速率或变形的时间序列数据;标准化欧式距离也可以用于等长时间序列的简单相似度比较