本文整理自 YouTube 影片：【AI科普】一期视频讲透所有唬人概念：LLM, Agent, RAG, MCP, Skills... 原作者透過清晰的脈絡，解釋了這些名詞的演進關係。

你是否也被 GenAI、LLM、Agent、RAG、MCP、Skills 這些不斷冒出的新名詞搞得暈頭轉向？這篇文章整理自相關影片內容，帶你從最核心的概念出發，一步步拆解這些術語的關聯，讓你一次看懂 AI 發展的脈絡。

1. 一切的起點：大語言模型 (LLM) 與 Prompt

故事要從最基礎的 語言模型 (Language Model) 說起。早期的語言模型能力有限，但隨著參數量的指數級增長，模型在某個臨界點突然「湧現」出了智慧，為了區分，我們加了一個「大」字，這就是 大語言模型 (Large Language Model, LLM)。

LLM 本質上在做什麼？其實它就是在玩「文字接龍」。它根據前面的內容，不斷預測下一個字是什麼。單純的文字接龍看起來並不像有智慧，但如果我們把場景設定為「一問一答」，雖然底層機制沒變，但人類感覺像是在對話了。

在這個過程中，產生了幾個關鍵概念：

Prompt (提示詞)：你對 LLM 說的話，也就是你給它的「上文」。
Context (上下文/語境)：Prompt 中包含的背景資訊。為了讓 LLM 回答得更準確，我們通常會在 Prompt 裡塞入一些相關的背景知識，這部分就是 Context。
Memory (記憶)：LLM 本身不記得你昨天說過什麼。為了讓對話能延續，我們把「過往的對話紀錄」作為 Context 的一部分再次傳給 LLM，讓它「假裝」有了記憶。

2. 給大腦裝上雙手：Agent (代理人) 與 RAG

LLM 很強，但它有個致命傷：它是靜態的，且活在過去。它無法上網獲取最新資訊，也無法執行真正的操作（比如寫檔案、寄信）。

為了解決這個問題，我們引入了 Agent (代理人) 的概念。這裡有個很不客氣但精準的定義：所謂 Agent，就是整個系統中「不需要智慧」的程式碼部分。 Agent 是一個包裝在 LLM 外層的程式，負責處理邏輯、呼叫工具、聯網搜尋。

你問問題 -> Agent 接收 -> Agent 決定是否需要上網 -> Agent 執行搜尋程式 -> Agent 把搜尋結果塞回 Context -> LLM 根據 Context 生成回答。

在這個階段，我們又發明了幾個詞：

RAG (Retrieval-Augmented Generation, 檢索增強生成)：Agent 去向量資料庫 (Vector DB) 搜尋相關文件，把找到的內容「增強」到 Context 裡，讓 LLM 基於事實回答，減少幻覺。
Web Search：其實就是聯網版的 RAG，把搜尋結果餵給 LLM。

3. 溝通的標準化：Function Calling 與 MCP

當 Agent 想要呼叫工具（比如計算機、搜尋、API）時，直接用自然語言跟程式溝通很不穩定。工程師希望 LLM 能輸出「結構化」的資料。

Function Calling：這是 LLM 與 Agent 之間的一種「約定」。LLM 按照約定的格式（例如 JSON）輸出它想呼叫的函式和參數，Agent 讀懂 JSON 後去執行真正的程式碼。

但工具五花八門，Agent 要怎麼知道有哪些工具可用？如何呼叫？這就需要一個統一的介面標準，於是有了 MCP (Model Context Protocol)。

MCP：你可以把它想像成 AI 時代的 USB 介面協定。
- Server 端 (工具提供者)：告訴 Agent "我有這些工具，參數是這樣那樣"。
- Client 端 (Agent/IDE)：透過 MCP 協定發現並呼叫這些工具。
- 這讓 Agent 可以像插拔 USB 一樣，輕鬆連接各種不同的數據源和工具，而不需要為每個工具寫特定的適配程式碼。

4. 自動化的演進：從 Workflow 到 Skills

Agent 能夠呼叫工具後，我們希望它能自動完成複雜任務（例如：讀取 PDF -> 翻譯 -> 存成 Word）。這就涉及到「流程控制」。

這裡經歷了三個階段的演進，從「剛性」到「柔性」：

LangChain (程式碼編排)：
- 概念：工程師用 Python/JS 寫死整套流程 (If this then that)。
- 優點：極度穩定，可控。
- 缺點：開發門檻高，缺乏彈性。
Workflow (工作流)：
- 概念：低程式碼 (Low-code) 的拖拉介面 (如 Dify, Coze)。
- 優點：上手容易，邏輯可視化。
- 缺點：本質還是寫死的流程，遇到意料之外的情況容易卡死。
Skills (技能 / Agent 自主)：
- 概念：這是目前最接近「通用代理人」的型態。我們不再寫死流程，而是寫一份 「說明書」 (Skill.md) + 工具腳本。
- 運作方式：Agent 閱讀說明書，自己決定在什麼時候、用什麼順序去呼叫這些工具。
- 優點：極度靈活。Agent 可以根據當下情況動態調整策略。
- 缺點：不可控性增加（它可能會自己決定做一些你沒想到的事），且 Token 消耗較大。

Sub-agent (子代理人)：為了避免一個 Agent 的 Context 太長太亂，我們把複雜任務拆解，交給專門的 Sub-agent 處理（例如一個專門寫程式，一個專門寫文案），處理完只回報結果，這樣能保持主 Agent 的思緒清晰。

5. 未來展望：Super Agent 與便利性的勝利

目前的 AI 發展就像當年的程式語言演進，從底層組合語言 (Prompt Tuning) 走向高階語言 (Agentic Workflow)。

LangChain 像組合語言，精確但繁瑣。
Skills 像高階語言，讓 AI 自主決策。

未來，我們可能不再需要手動配置 MCP 或撰寫複雜的 Workflow。就像 SpringBoot 封裝了複雜的 Java 配置一樣，未來會出現 Super Agent，它內建了各種常用 Skills 和 MCP 連接能力。用戶不需要懂什麼是 RAG、什麼是 Vector DB，只需要說「幫我處理這份文件」，Agent 就會自動呼叫內建的技能（閱讀、搜尋、總結、寫檔）來完成任務。

在這個趨勢下，便利性 (Convenience) 將會戰勝一切。也就是說，誰能把 AI 封裝得越簡單、越無感，誰就是贏家。

AI 概念大解密：從 LLM 到 Agent，再一次搞懂 MCP 與 Skills

1. 一切的起點：大語言模型 (LLM) 與 Prompt

2. 給大腦裝上雙手：Agent (代理人) 與 RAG

3. 溝通的標準化：Function Calling 與 MCP

4. 自動化的演進：從 Workflow 到 Skills

5. 未來展望：Super Agent 與便利性的勝利

Related Posts

OpenClaw 初體驗：在 NVIDIA Jetson Thor 上跑 Local Agent 的踩坑紀錄

透過 Vibe Coding 改良 UpDownServer：重塑 Python HTTP Server 體驗