大型語言模型(LLM)

選擇的關鍵點

在選擇大型語言模型時,請考慮以下幾個關鍵因素:

  1. 環境(Environment):使用環境是否能夠上網來決定使用雲端或地端模型。

  2. 品質(Quality):模型生成回覆結果的能力與對於指令的服從性。

  3. 速度(Speed):文字生成速度及對於延遲的要求,來確保模型的回應速度。

  4. 價格(Pricing):考慮模型的使用成本,根據使用需求選擇適合的模型。(MaiAgent 上無須考慮模型價格)

  5. 其他:是否支援多模態、是否支援 Function calling。

大型語言模型分析 - Artificial Analysisarrow-up-right

MaiAgent 上支援的大型語言模型

閉源模型

模型名稱
描述
是否為推理模型
使用情境

Claude 4.5 Opus

Claude 最頂級版本,回答品質最高、思考最深入,但速度較慢。特別擅長複雜邏輯推理和專業領域問題

混合推理模型

最困難、最重要的任務。例如:法律文件分析、醫學研究、複雜的程式開發

Claude 4.5 Sonnet

品質很好、速度適中。特別擅長整理資料、使用工具,是 Agent 模式的最佳選擇

混合推理模型

👍 複雜任務首選。適合需要多步驟處理的工作、專業寫作、長時間對話

Claude 4.5 Haiku

速度很快、反應靈敏,但品質也很不錯。是 Claude 4.5 系列中最快的

混合推理模型

需要快速回應的場景、即時客服、大量問答處理

Claude 4 Sonnet

平衡版本,品質好、速度適中,邏輯推理能力強

混合推理模型

Agent 模式首選👍 適合高複雜任務、專業領域應用與超長對話。

GPT-5.1(OpenAI)

最新最強的版本,回答品質好、速度也不錯,什麼任務都能處理。可以一次處理很長的文字(約 30 萬字)

👍 大部分情況的首選。寫文章、分析資料、處理圖片、長時間對話都適合

GPT-5(OpenAI)

GPT-5 的標準版,回答品質很好,速度正常。可以處理約 30 萬字的內容

需要高品質回答的場景,例如:專業報告、複雜問題分析

GPT-5 mini(OpenAI)

GPT-5 的輕量版,速度快,品質中等。可以處理約 30 萬字的內容

一般商業應用、客服對話、內容生成

GPT-5 nano(OpenAI)

GPT-5 最精簡版,速度超快,適合簡單任務

簡單問答、大量重複性工作

GPT-4.1(OpenAI)

可以處理「超級長」的文字(約 700 萬字),適合處理整本書或大型文件

分析整本書、處理超大型文件、研究論文整理

GPT-4.1 nano(OpenAI)

GPT-4.1 最精簡版,速度最快,但一樣能處理超長文字(約 700 萬字)

簡單任務但需要讀很長的文件時

GPT-4.1 (Azure)

跟 GPT-4.1 一樣,但是用微軟 Azure 平台,適合企業使用

企業內部系統整合、需要微軟服務的公司

GPT-4.1 mini (OpenAI)

GPT-4.1 的輕量版,一樣能處理超長文字(約 700 萬字),但速度更快、反應更靈敏

需要快速處理大文件的場景

GPT-4.1 mini (Azure)

GPT-4.1 mini 的 Azure 版本,輕量快速,適合企業使用

企業需要快速處理大文件的場景

o4-mini-high

品質極高,速度較快,在保持高效率的同時提供深度推理能力,採用增強型思維鏈運算

需要兼顧品質與效率的複雜任務、技術文檔生成、複雜業務邏輯分析

o4-mini-medium

速度很快,品質中上,平衡效率與準確度

商業應用、中等複雜度的推理任務

o4-mini-low

速度極快,品質基本,推理深度有限

需要極快回應速度的簡單推理任務

o3

o 系列最新旗艦模型,推理能力最強,在數學、科學、編碼等高難度任務上表現卓越。速度極慢,成本極高,品質最佳

最頂級的推理任務、突破性研究、極高難度的數學與編碼問題、當其他模型無法解決時

o3-mini-high

品質高,速度中等,回答前會以思維鏈的模式進行多層次思考運算,以提供更完整、精準的答案

高難度,要求深度推理、創造力的任務

o3-mini-medium

速度快,品質中等

大部分商業應用、簡單創作或常規問答

o3-mini-low

速度最快,品質基本,缺乏深度推理

適合求快速,不求生成深度的簡單任務

Gemini 3 (Preview)

Google 最新預覽版本,整合了最新技術,品質高、速度快。擅長多模態任務(文字、圖片、影片)

需要處理多種類型內容(文字+圖片)

Gemini 2.5 Pro

擅長長文本對話和程式碼生成。可以處理超長內容(約 700 萬字)

👍 需要高品質輸出。適合長文本生成、複雜的程式碼開發、專業寫作

Gemini 2.5 Flash

速度快,多模態能力好

速度與品質兼顧。一般商業應用、需要快速回應的場景、圖片理解

Gemini 2.5 Flash Lite

速度快,反應最迅速,適合簡單任務

簡單的任務首選👍需要極快回應、大量重複性工作

DeepSeek V3.2 Exp

速度快,品質高

適合文檔檢索、大規模數據庫查詢的任務

DeepSeek R1 Distill Llama 70B

回覆品質高,速度中等(比 DeepSeek V3 慢)

適合需要多步推理和背景知識的任務

DeepSeek R1

回覆速度偏慢,但對中文有很強的理解力回覆內容品質高。深層思考,並確實針對角色指令內容調整

在需要進行複雜的多輪中文對話的場景。處理複雜的角色指令👍

開源模型

以下為主流的開源模型比較表,開源模型所需要的硬體能夠參考 GPU 章節。

模型名稱

描述

支援 Agent

使用情境

GPT-OSS-120B

擅長用表格回覆整理資訊

數據分析、文案創作

Gemma3 27B

圖像 OCR 效果好

發票辨識、圖片分析

Meta Llama3.3 70B

性價比極高的通用模型,指令遵循能力強

語音客服、RAG 問答助理

Meta Llama3.2 90B

具備視覺能力,可同時處理圖像與文字

專業領域問答、高精度任務

Meta Llama3.1 405B

知識廣度與推理能力極高

客服問答、知識問答

Llama3 Taiwan 70B

針對繁體中文與台灣文化進行微調,在地化用語精準

客服問答、RAG 問答助理

DeepSeek R1

推理強化模型,擅長透過思維鏈解決複雜問題

科學邏輯推演

DeepSeek V3.2

MoE 架構,推理速度快且成本極低

大量文本摘要

Qwen3 235B

程式碼與數學特化,擁有極深的邏輯理解力,適合硬核任務

學術論文輔助

Qwen3 32B

高質量回答與高效率處理之間動態平衡

多語言對話與指令跟隨

Qwen3 8B

品質中等,效能與成本平衡

聊天助手、客服常見問答

Qwen2.5 VL 72B instruct

視覺語言模型,能精準識別圖片細節

多模態聊天助手

Mistral Large (24.07)

品質中等、缺乏深度推理能力,速度快

客服問答、簡單文本生成

模型一定要 Fine-tune 嗎?

隨著人工智慧技術的快速發展,語言模型已經擁有了強大的語言理解和生成能力,並在許多領域中廣泛應用。例如,預訓練的語言模型可以輕鬆應對日常對話、文章生成以及簡單的問答任務。

然而,當模型面對更具挑戰性的專業領域任務,如醫療、法律或技術支持等領域時,僅僅依賴預訓練模型可能無法提供最佳的表現。有些開發者會選擇進行 Fine-tuning,也就是針對特定領域進行額外的訓練,以提高模型的專業知識。

然而,Fine-tuning 並不是唯一的解決方案,還有其他兩種有效的方法可以達成這一目標:Prompt EngineeringRAG (Retrieval-Augmented Generation)

1. Prompt Engineering:通過精確的提示優化模型表現

Prompt Engineering 為設計精確的提示語句來引導模型生成所需的結果。這種方法的核心是根據任務需求,設計詳細表達方式,幫助模型縮小回答範圍,理解上下文和所需的輸出形式。

假設有一個語言模型,目的是根據用戶的需求推薦合適的產品。在這個情況下,如果表達 「我想買一部高性能的手機」,可能會導致模型生成不夠精準的答案,因為「高性能」這個詞有很多不同的解釋,可能指的是處理速度、相機性能、電池壽命等。

為了提高推薦的精度,我們可以進行 Prompt Engineering,設計更加具體的問題或提供額外的上下文來引導模型更好地理解用戶的需求。例如,改為以下的提示語句:

"我需要一部具備長時間電池續航高效處理器的手機,並且價格在 500 美元到 800 美元之間,請推薦幾款符合條件的手機。"

2. RAG:結合外部知識提升生成能力

RAG 是通過將外部知識檢索和生成過程相結合,來提升模型的表現。

在傳統的生成任務中,模型僅依賴預訓練時學到的知識。而 RAG 則利用檢索系統,即時獲取外部資料,並將這些資料與生成模型結合,從而更準確地回答問題或生成文本。

舉個例子,在醫療領域,當模型被問及某種罕見疾病時,RAG 可以先從專業醫學資料庫中檢索相關資料,再根據這些資料生成更準確的回答。這種方法的好處是,即便模型本身未在訓練過程中見過某些資料,它仍然能夠通過檢索現有知識來做出高質量的回應,特別適用於需要即時知識更新的情境,並能大大擴展模型的知識範圍。

circle-check

總結,Fine-tuning、Prompt Engineering 和 RAG 各有其優勢和適用範圍,可根據應用場景和需求選擇最合適的策略,而不必僅依賴於單一的 Fine-tuning 方法。

Prompt Engineering 提供了一種成本低且靈活的解決方案,通過設計精確的提示語句來引導模型產生高質量的結果。

RAG 則提供了一種結合外部知識和生成能力的方法,能夠在需要動態獲取知識的情況下,提供更精確的答案。

Fine-tuning 可以顯著提升模型在特定領域的表現,但需要大量專業資料並消耗額外資源,可視為 Prompt EngineeringRAG 兩種方式都無法成功,才實行的最後手段

Last updated

Was this helpful?