夫妻露脸国产好看,色色综合网高清无码

一、背景

隨著人工智能技術(shù)的飛速發(fā)展，大模型（Large Language Models, LLMs）已成為自然語言處理領(lǐng)域的核心工具。這些模型以其強大的語言理解和生成能力，在機器翻譯、文本生成、情感分析、問答系統(tǒng)等多個應(yīng)用中展現(xiàn)出卓越的性能。本文旨在提供一個快速簡單的LLM下載部署全流程教程，主要介紹如何從modelscope下載llma3.1-8B、使用FastChat 部署LLM大模型，并且通過 Web UI 以及兼容 OpenAI API 的 RESTful API 訪問。

二、準(zhǔn)備工作

使用虛擬環(huán)境

為了避免潛在的依賴沖，推薦使用單獨的虛擬環(huán)境。本文使用的anaconda進行python環(huán)境管理，請?zhí)崆鞍惭banaconda。

# 創(chuàng)建新環(huán)境
conda create --name devhub python=3.10
# 激活環(huán)境
conda activate devhub
# 更新conda
conda update conda
# 退出環(huán)境
conda deactivate

安裝 FastChat

FastChat 是以 UC Berkeley 主導(dǎo)的 Large Model Systems Organization 所開源的面向 LLM 的訓(xùn)練、推理與評估的開放平臺，通過該平臺可以快速部署多模型的 LLM 服務(wù)，并且通過 Web UI 以及兼容 OpenAI API 的 RESTful API 訪問。

通過pip 安裝 FastChat：

pip install "fschat[model_worker,webui]"

在特定情況下，在安裝過程中有可能會出現(xiàn)找不到 accelerator 模塊的報錯，可通過 pip install accelerator 手動安裝。

安裝 vLLM

為了得到更好的推理性能，我們在這邊使用 vLLM 作為后端來加速推理。

通過 pip 安裝 vLLM：

pip install vllm

筆者將在另一篇文章當(dāng)中詳細(xì)介紹 vLLM ,此處不再贅述。

三、下載 LLM 模型

選擇模型

根據(jù)你的應(yīng)用需求和資源限制，選擇合適的LLM模型。常見的開源LLM包括GPT系列、Llama系列、阿里Qwen系列等。本文使用的是llama3.2-8B模型。

下載模型

以下2種方式：

第一種（國內(nèi)）：推薦使用通過ModelScope魔搭社區(qū)進行下載，很多模型都可以下載，其非常強大。
下載git（如果已經(jīng)下載，可直接跳過）

#基于cenost系統(tǒng)的git下載
sudo yum install git
# 安裝git lfs
sudo yum install git-lfs

# 初始化git-lfs
git lfs install
# 下載模型
git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3.1-8B-Instruct.git

第二種（國外）：Hugging Face提供了多種方式來下載模型，我們在這邊選擇使用 huggingface-cli。但下載過程中直接403被禁止，推薦使用第一種方式。

# 安裝huggingface-cli
pip install -U "huggingface_hub[cli]"
# 下載模型
huggingface-cli download --resume-download --local-dir-use-symlinks False --token "hg_TOKEN" meta-llama/Llama-2-7b-chat-hf --local-dir Llama-2-7b-chat-hf

驗證模型

下載完成后，通過簡單的測試腳本驗證模型文件的完整性和可用性。

import transformers
import torch

model_id = "./Meta-Llama-3.1-8B-Instruct" # 替換成真實路徑

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",
)

messages = [
    {"role": "system", "content": "hello,You are a helpful human assistant!"},
    {"role": "user", "content": "介紹一下中國,請用中文回答"},
]

prompt = pipeline.tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)

四、使用 FastChat 部署 LLM

通過Web和SDK訪問LLM服務(wù)，本文使用FastChat框架。我們需要在服務(wù)器上部署以下組件：

Controller（控制器）：負(fù)責(zé)管理分布式模型實例。它監(jiān)控所有Worker的狀態(tài)，并調(diào)度Worker，以保證各個同名Worker之間的負(fù)載均衡。
Worker（工作者）：大模型的服務(wù)實例，負(fù)責(zé)加載大語言模型的權(quán)重、tokenizer、對話模板等，并對來自O(shè)penAI API Server的請求生成模型推斷結(jié)果。
Gradio Web Server（Gradio Web服務(wù)器）：提供了一個用戶友好的Web界面，允許用戶通過瀏覽器與聊天機器人進行交互。
OpenAI API Server（OpenAI API服務(wù)器）：OpenAI API Server提供與OpenAI兼容的API服務(wù)。它接受用戶的HTTP調(diào)用請求，并將這些請求分發(fā)給相應(yīng)的Worker進行處理，最后返回處理結(jié)果。

其核心組件及各參數(shù)的詳解，請參考大模型實戰(zhàn)--FastChat一行代碼實現(xiàn)部署和各個組件詳解，此處不再詳細(xì)贅述。

啟動 Controller

啟動 FastChat Controller：

python3 -m fastchat.serve.controller

默認(rèn)端口為 21001，可通過 --port 指定。

啟動 vLLM Worker

基于 vLLM Worker 和 LLM 啟動推理服務(wù)，其中--model-path替換成自己的路徑：

 python3 -m fastchat.serve.vllm_worker --model-path ../Meta-Llama-3.1-8B-Instruct

默認(rèn)端口為 21002，可通過 --port 指定。FastChat 的 Worker 會向 Controller 注冊自身，并通過心跳機制保持連接。

本文使用的是 Meta-Llama-3.1-8B-Instruct 模型，通過指定 --num-gpus 參數(shù)選擇使用顯存。

本文使用 vLLM 作為推理后端，如果希望使用默認(rèn)的推理后端的話可使用 fastchat.serve.model_worker。

啟動 Gradio Web Server

FastChat 基于 Gradio 提供了可視化交互聊天界面。

python3 -m fastchat.serve.gradio_web_server

默認(rèn)端口為 7860，可通過 --port 指定。

如果在啟動過程中報錯的話，這有可能是由于 Gradio 的版本不兼容導(dǎo)致的，將 Gradio 降級至 3.48.0 即可解決。

啟動 OpenAI API Server

python3 -m fastchat.serve.openai_api_server

默認(rèn)端口為 8000，可通過 --port 指定。在啟動 OpenAI API Server 的時候可通過參數(shù) --api-keys 指定 API Key 的列表，在不指定的情況下在客戶端填入任意值皆可。

使用 OpenAI API

本文使用的 OpenAI SDK 的版本為 v1，與 v0 版本的接口存在一定的差異，詳情請訪問 OpenAI Python SDK 的文檔。

安裝 OpenAI Python SDK：

pip install openai

OpenAI Python調(diào)用：

創(chuàng)建 Chat Completion（Default）代碼：

import os
from openai import OpenAI

# 設(shè)置API密鑰和API基地址
os.environ["OPENAI_API_KEY"] = "na" # 在啟動 OpenAI API Server 的時候可通過參數(shù) `--api-keys` 指定 API Key 的列表，在不指定的情況下在客戶端填入任意值皆可。
os.environ["OPENAI_BASE_URL"] = "http://localhost:8000/v1" # 本地地址

# 創(chuàng)建OpenAI客戶端實例
client = OpenAI()

# 定義模型名稱和消息
model_name = "Meta-Llama-3.1-8B-Instruct"  # 請根據(jù)實際使用的模型名稱進行替換
messages = [
    {"role": "system", "content": "You are an AI assistant."},
    {"role": "user", "content": "中國的全名?"}
]

# 發(fā)送聊天完成請求
chat_completion = client.chat.completions.create(
    model=model_name,
    messages=messages
)

# 打印聊天響應(yīng)內(nèi)容
print(chat_completion.choices[0].message.content)

創(chuàng)建 Completion代碼：

import os
from openai import OpenAI

# 設(shè)置API密鑰和API基地址
os.environ["OPENAI_API_KEY"] = "na" # 在啟動 OpenAI API Server 的時候可通過參數(shù) `--api-keys` 指定 API Key 的列表，在不指定的情況下在客戶端填入任意值皆可。
os.environ["OPENAI_BASE_URL"] = "http://localhost:8000/v1" # 本地地址

# 創(chuàng)建OpenAI客戶端實例
client = OpenAI()

# 定義模型名稱和消息
model_name = "Meta-Llama-3.1-8B-Instruct"  # 請根據(jù)實際使用的模型名稱進行替換
prompt = "Once upon a time"

completion = client.completions.create(
    model=model_name,
    prompt=prompt,
    max_tokens=64
)
print(prompt + completion.choices[0].text)

創(chuàng)建 Chat Completion（Stream）代碼

import os
from openai import OpenAI

# 設(shè)置API密鑰和API基地址
os.environ["OPENAI_API_KEY"] = "na" # 在啟動 OpenAI API Server 的時候可通過參數(shù) `--api-keys` 指定 API Key 的列表，在不指定的情況下在客戶端填入任意值皆可。
os.environ["OPENAI_BASE_URL"] = "http://localhost:8000/v1" # 本地地址

# 創(chuàng)建OpenAI客戶端實例
client = OpenAI()

# 定義模型名稱和消息
model_name = "Meta-Llama-3.1-8B-Instruct"  # 請根據(jù)實際使用的模型名稱進行替換
completion = client.chat.completions.create(
    model = model_name,
    messages=[
        {
            "role": "user",
            "content": "Say this is a test",
        }
    ],
    stream=True
)

for chunk in completion:
    if chunk.choices[0].finish_reason == "stop":
        break
    else:
        print(chunk.choices[0].delta.content, end="", flush=True)

可以訪問 OpenAI API 的文檔獲取更多的信息。
FastChat框架及各個參數(shù)詳解，請參考作者文章大模型實戰(zhàn)--FastChat一行代碼實現(xiàn)部署和各個組件詳解

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

大模型實戰(zhàn)--Llama3.1大模型部署及啟動Web UI、OpenAI API實操

大模型實戰(zhàn)--Llama3.1大模型部署及啟動Web UI、OpenAI API實操

一、背景

二、準(zhǔn)備工作

使用虛擬環(huán)境

安裝 FastChat

安裝 vLLM

三、下載 LLM 模型

選擇模型

下載模型

驗證模型

四、使用 FastChat 部署 LLM

啟動 Controller

啟動 vLLM Worker

啟動 Gradio Web Server

啟動 OpenAI API Server

使用 OpenAI API

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

大模型實戰(zhàn)--Llama3.1大模型部署及啟動Web UI、OpenAI API實操

一、背景

二、準(zhǔn)備工作

使用虛擬環(huán)境

安裝 FastChat

安裝 vLLM

三、下載 LLM 模型

選擇模型

下載模型

驗證模型

四、使用 FastChat 部署 LLM

啟動 Controller

啟動 vLLM Worker

啟動 Gradio Web Server

啟動 OpenAI API Server

使用 OpenAI API

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一、背景

三、下載 LLM 模型