2026年2月19日 10 min read

AI 概念大解密:從 LLM 到 Agent,再一次搞懂 MCP 與 Skills

AILLMAgentMCP

本文整理自 YouTube 影片:【AI科普】一期视频讲透所有唬人概念:LLM, Agent, RAG, MCP, Skills... 原作者透過清晰的脈絡,解釋了這些名詞的演進關係。

你是否也被 GenAI、LLM、Agent、RAG、MCP、Skills 這些不斷冒出的新名詞搞得暈頭轉向? 這篇文章整理自相關影片內容,帶你從最核心的概念出發,一步步拆解這些術語的關聯,讓你一次看懂 AI 發展的脈絡。

1. 一切的起點:大語言模型 (LLM) 與 Prompt

故事要從最基礎的 語言模型 (Language Model) 說起。 早期的語言模型能力有限,但隨著參數量的指數級增長,模型在某個臨界點突然「湧現」出了智慧,為了區分,我們加了一個「大」字,這就是 大語言模型 (Large Language Model, LLM)

LLM 本質上在做什麼?其實它就是在玩「文字接龍」。它根據前面的內容,不斷預測下一個字是什麼。 單純的文字接龍看起來並不像有智慧,但如果我們把場景設定為「一問一答」,雖然底層機制沒變,但人類感覺像是在對話了。

在這個過程中,產生了幾個關鍵概念:

  • Prompt (提示詞):你對 LLM 說的話,也就是你給它的「上文」。
  • Context (上下文/語境):Prompt 中包含的背景資訊。為了讓 LLM 回答得更準確,我們通常會在 Prompt 裡塞入一些相關的背景知識,這部分就是 Context。
  • Memory (記憶):LLM 本身不記得你昨天說過什麼。為了讓對話能延續,我們把「過往的對話紀錄」作為 Context 的一部分再次傳給 LLM,讓它「假裝」有了記憶。

2. 給大腦裝上雙手:Agent (代理人) 與 RAG

LLM 很強,但它有個致命傷:它是靜態的,且活在過去。它無法上網獲取最新資訊,也無法執行真正的操作(比如寫檔案、寄信)。

為了解決這個問題,我們引入了 Agent (代理人) 的概念。 這裡有個很不客氣但精準的定義:所謂 Agent,就是整個系統中「不需要智慧」的程式碼部分。 Agent 是一個包裝在 LLM 外層的程式,負責處理邏輯、呼叫工具、聯網搜尋。

  • 你問問題 -> Agent 接收 -> Agent 決定是否需要上網 -> Agent 執行搜尋程式 -> Agent 把搜尋結果塞回 Context -> LLM 根據 Context 生成回答。

在這個階段,我們又發明了幾個詞:

  • RAG (Retrieval-Augmented Generation, 檢索增強生成):Agent 去向量資料庫 (Vector DB) 搜尋相關文件,把找到的內容「增強」到 Context 裡,讓 LLM 基於事實回答,減少幻覺。
  • Web Search:其實就是聯網版的 RAG,把搜尋結果餵給 LLM。

3. 溝通的標準化:Function Calling 與 MCP

當 Agent 想要呼叫工具(比如計算機、搜尋、API)時,直接用自然語言跟程式溝通很不穩定。工程師希望 LLM 能輸出「結構化」的資料。

  • Function Calling:這是 LLM 與 Agent 之間的一種「約定」。LLM 按照約定的格式(例如 JSON)輸出它想呼叫的函式和參數,Agent 讀懂 JSON 後去執行真正的程式碼。

但工具五花八門,Agent 要怎麼知道有哪些工具可用?如何呼叫? 這就需要一個統一的介面標準,於是有了 MCP (Model Context Protocol)

  • MCP:你可以把它想像成 AI 時代的 USB 介面協定
    • Server 端 (工具提供者):告訴 Agent "我有這些工具,參數是這樣那樣"。
    • Client 端 (Agent/IDE):透過 MCP 協定發現並呼叫這些工具。
    • 這讓 Agent 可以像插拔 USB 一樣,輕鬆連接各種不同的數據源和工具,而不需要為每個工具寫特定的適配程式碼。

4. 自動化的演進:從 Workflow 到 Skills

Agent 能夠呼叫工具後,我們希望它能自動完成複雜任務(例如:讀取 PDF -> 翻譯 -> 存成 Word)。這就涉及到「流程控制」。

這裡經歷了三個階段的演進,從「剛性」到「柔性」:

  1. LangChain (程式碼編排)
    • 概念:工程師用 Python/JS 寫死整套流程 (If this then that)。
    • 優點:極度穩定,可控。
    • 缺點:開發門檻高,缺乏彈性。
  2. Workflow (工作流)
    • 概念:低程式碼 (Low-code) 的拖拉介面 (如 Dify, Coze)。
    • 優點:上手容易,邏輯可視化。
    • 缺點:本質還是寫死的流程,遇到意料之外的情況容易卡死。
  3. Skills (技能 / Agent 自主)
    • 概念:這是目前最接近「通用代理人」的型態。我們不再寫死流程,而是寫一份 「說明書」 (Skill.md) + 工具腳本
    • 運作方式:Agent 閱讀說明書,自己決定在什麼時候、用什麼順序去呼叫這些工具。
    • 優點:極度靈活。Agent 可以根據當下情況動態調整策略。
    • 缺點:不可控性增加(它可能會自己決定做一些你沒想到的事),且 Token 消耗較大。

Sub-agent (子代理人):為了避免一個 Agent 的 Context 太長太亂,我們把複雜任務拆解,交給專門的 Sub-agent 處理(例如一個專門寫程式,一個專門寫文案),處理完只回報結果,這樣能保持主 Agent 的思緒清晰。

5. 未來展望:Super Agent 與便利性的勝利

目前的 AI 發展就像當年的程式語言演進,從底層組合語言 (Prompt Tuning) 走向高階語言 (Agentic Workflow)。

  • LangChain 像組合語言,精確但繁瑣。
  • Skills 像高階語言,讓 AI 自主決策。

未來,我們可能不再需要手動配置 MCP 或撰寫複雜的 Workflow。 就像 SpringBoot 封裝了複雜的 Java 配置一樣,未來會出現 Super Agent,它內建了各種常用 Skills 和 MCP 連接能力。用戶不需要懂什麼是 RAG、什麼是 Vector DB,只需要說「幫我處理這份文件」,Agent 就會自動呼叫內建的技能(閱讀、搜尋、總結、寫檔)來完成任務。

在這個趨勢下,便利性 (Convenience) 將會戰勝一切。也就是說,誰能把 AI 封裝得越簡單、越無感,誰就是贏家。