大型語言模型(LLM)

選擇的關鍵點

在選擇大型語言模型時,請考慮以下幾個關鍵因素:

  1. 環境(Environment):使用環境是否能夠上網來決定使用雲端或地端模型。

  2. 品質(Quality):模型生成回覆結果的能力與對於指令的服從性。

  3. 速度(Speed):文字生成速度及對於延遲的要求,來確保模型的回應速度。

  4. 價格(Pricing):考慮模型的使用成本,根據使用需求選擇適合的模型。(MaiAgent 上無須考慮模型價格)

  5. 其他:是否支援多模態、是否支援 Function calling。

大型語言模型分析 - Artificial Analysis

MaiAgent 上支援的大型語言模型

雲端模型(閉源)

模型名稱
描述
是否為推理模型
使用情境

o4-mini

速度比 o3-mini-high 快,品質略遜於 o3-mini-high

注重高品質、快速的選擇

o3-mini-high

品質高,速度中等,回答前會以思維鏈的模式進行多層次思考運算,以提供更完整、精準的答案

高難度,要求深度推理、創造力的任務

o3-mini-medium

速度快,品質中等

大部分商業應用、簡單創作或常規問答

o3-mini-low

速度最快,品質基本,缺乏深度推理

適合求快速,不求生成深度的簡單任務

o1-mini 2024-09-12

o1 系列大型語言模型透過強化學習進行訓練,以執行複雜的推理。o1 模型在回答之前會先思考,在回應使用者之前產生一個很長的內在思維鏈。速度最慢,品質佳

非常難的問題、其他 LLM 都無能為力時

GPT-4o 2024-08-06

品質、速度平均高

遵循指令與邏輯能力略遜 Claude 3.5 Sonnet,但速度比 Claude 3.5 Sonnet 快。是一個常用的選擇👍

GPT-4o mini 2024-07-18

速度快,品質中等。品質略低於 Gemini 2.0 Flash

簡單的任務、無法選擇 Gemini 2.0 Flash 時的替代品

Claude 4 Sonnet

速度中等偏慢,結構化資料產生/抽取能力強,並且在工具調用(Tool Calling)上特別拿手;邏輯推理與編碼表現超越 Claude 3.7 Sonnet,幻覺率進一步降低。

混合推理模型

Agent 模式首選👍 適合高複雜任務、專業領域應用與超長對話。

Claude 3.7 Sonnet

速度中等偏慢,擅長產生結構化(Structured)資料,擁有比 Claude 3.5 Sonnet 更強的邏輯推理能力。低機率出現幻覺

混合推理模型

大部分情況的首選👍 適合複雜度高的任務,專業領域,長對話應用

Claude 3.5 Sonnet

遵守角色指令,邏輯推理能力相較 Claude 3.7 Sonnet 弱,但速度比較快低機率出現幻覺

速度覺得太慢時,可切換至 Gemini 2.0 Flash

Gemini 2.5 Pro

在較長對話、程式生成的情況下,品質比 Claude 3.7 Sonnet 好,但在 Agent 模式、調用工具上表現略差

可與 Claude 3.7 Sonnet 交叉使用

Gemini 2.0 Pro

與 Claude 3.5 Sonnet 相比,品質差不多,但速度較慢

Claude 3.5 Sonnet 的替代品

Gemini 2.5 Flash

速度快,多模態能力好

Gemini 2.0 Flash

速度快,品質中等

簡單的任務首選👍

DeepSeek V3

速度快,品質高

適合文檔檢索、大規模數據庫查詢的任務

DeepSeek R1 Distill Llama 70B

回覆品質高,速度中等(比 DeepSeek V3 慢)

適合需要多步推理和背景知識的任務

DeepSeek R1

回覆速度偏慢,但對中文有很強的理解力回覆內容品質高。深層思考,並確實針對角色指令內容調整

在需要進行複雜的多輪中文對話的場景。處理複雜的角色指令👍

地端模型(開源)

以下為主流的開源模型比較表,開源模型所需要的硬體能夠參考 GPU 章節。

模型名稱
描述
使用情境

Meta Llama3.3 70B

品質高,速度中等

數據分析、文案創作

Meta Llama3.3 70B instruct (M2Ultra)

品質高,速度快

語音客服

Meta Llama3.2 90B

品質極高,速度中等

專業領域問答、高精度任務

Llama3-TAIDE-LX-70B-Chat (國網中心)

品質高、中文生成能力高,速度中等

客服問答、知識問答

TAIDE-LX-70B-Chat (國網中心)

品質高,速度中等

客服問答、知識問答

Mistral Large (24.07)

品質中等、缺乏深度推理能力,速度快

客服問答、簡單文本生成

Meta-Llama 3.1-70B

品質中等,算力需求中等

客服、知識問答、進階的翻譯與摘要

Meta-Llama 3.1-8B

品質尚可,算力需求低

翻譯、摘要

Mistral Large 2

品質高,硬體需求高

客服、知識問答、進階的翻譯與摘要

Mistral 8x7B

品質低,速度最快

翻譯、摘要

Gemma3 27B (M2 Ultra)

品質高,硬體需求高

專業知識問答、數據分析、複雜內容生成

模型一定要 Fine-tune 嗎?

隨著人工智慧技術的快速發展,語言模型已經擁有了強大的語言理解和生成能力,並在許多領域中廣泛應用。例如,預訓練的語言模型可以輕鬆應對日常對話、文章生成以及簡單的問答任務。

然而,當模型面對更具挑戰性的專業領域任務,如醫療、法律或技術支持等領域時,僅僅依賴預訓練模型可能無法提供最佳的表現。有些開發者會選擇進行 Fine-tuning,也就是針對特定領域進行額外的訓練,以提高模型的專業知識。

然而,Fine-tuning 並不是唯一的解決方案,還有其他兩種有效的方法可以達成這一目標:Prompt EngineeringRAG (Retrieval-Augmented Generation)

1. Prompt Engineering:通過精確的提示優化模型表現

Prompt Engineering 為設計精確的提示語句來引導模型生成所需的結果。這種方法的核心是根據任務需求,設計詳細表達方式,幫助模型縮小回答範圍,理解上下文和所需的輸出形式。

假設有一個語言模型,目的是根據用戶的需求推薦合適的產品。在這個情況下,如果表達 「我想買一部高性能的手機」,可能會導致模型生成不夠精準的答案,因為「高性能」這個詞有很多不同的解釋,可能指的是處理速度、相機性能、電池壽命等。

為了提高推薦的精度,我們可以進行 Prompt Engineering,設計更加具體的問題或提供額外的上下文來引導模型更好地理解用戶的需求。例如,改為以下的提示語句:

"我需要一部具備長時間電池續航高效處理器的手機,並且價格在 500 美元到 800 美元之間,請推薦幾款符合條件的手機。"

2. RAG:結合外部知識提升生成能力

RAG 是通過將外部知識檢索和生成過程相結合,來提升模型的表現。

在傳統的生成任務中,模型僅依賴預訓練時學到的知識。而 RAG 則利用檢索系統,即時獲取外部資料,並將這些資料與生成模型結合,從而更準確地回答問題或生成文本。

舉個例子,在醫療領域,當模型被問及某種罕見疾病時,RAG 可以先從專業醫學資料庫中檢索相關資料,再根據這些資料生成更準確的回答。這種方法的好處是,即便模型本身未在訓練過程中見過某些資料,它仍然能夠通過檢索現有知識來做出高質量的回應,特別適用於需要即時知識更新的情境,並能大大擴展模型的知識範圍。

總結,Fine-tuning、Prompt Engineering 和 RAG 各有其優勢和適用範圍,可根據應用場景和需求選擇最合適的策略,而不必僅依賴於單一的 Fine-tuning 方法。

Prompt Engineering 提供了一種成本低且靈活的解決方案,通過設計精確的提示語句來引導模型產生高質量的結果。

RAG 則提供了一種結合外部知識和生成能力的方法,能夠在需要動態獲取知識的情況下,提供更精確的答案。

Fine-tuning 可以顯著提升模型在特定領域的表現,但需要大量專業資料並消耗額外資源,可視為 Prompt EngineeringRAG 兩種方式都無法成功,才實行的最後手段

Last updated

Was this helpful?