1. <nobr id="easjo"><address id="easjo"></address></nobr>

      <track id="easjo"><source id="easjo"></source></track>
      1. 
        

      2. <bdo id="easjo"><optgroup id="easjo"></optgroup></bdo>
      3. <track id="easjo"><source id="easjo"><em id="easjo"></em></source></track><option id="easjo"><span id="easjo"><em id="easjo"></em></span></option>
          貴州做網站公司
          貴州做網站公司~專業!靠譜!
          10年網站模板開發經驗,熟悉國內外開源網站程序,包括DEDECMS,WordPress,ZBlog,Discuz! 等網站程序,可為您提供網站建設,網站克隆,仿站,網頁設計,網站制作,網站推廣優化等服務。我們專注高端營銷型網站,企業官網,集團官網,自適應網站,手機網站,網絡營銷,網站優化,網站服務器環境搭建以及托管運維等。為客戶提供一站式網站解決方案?。?!

          MOSS模型量化版部署過程

          來源:互聯網轉載 時間:2023-09-05 10:39:20

          文章目錄

          • 項目背景
          • 配置環境與準備
          • 部署推理
            • 命令行部署
              • 報錯1
              • 報錯2:
            • 網頁版部署

          項目背景

          2023年4月21日,復旦大學自然語言處理實驗室正式開放MOSS模型,是國內首個插件增強的開源對話大語言模型。MOSS 相關代碼、數據、模型參數已在 GitHub 和 Hugging Face 等平臺開放,
          項目地址:https://github.com/OpenLMLab/MOSS。

          MOSS 對硬件要求還是較高,如果想本地部署的話,仍但需要非常大的開銷。如果使用A100 或 A800 可以單卡運行,而使用NVIDIA 3090 只能并行多卡運行,GPU 顯存至少需要 30GB。但如果想在消費級顯卡上進行部署,就只能部署量化后的版本,如下圖所示:

          具體對應的模型版本如下:

          moss-moon-003-sft-int4: 4bit量化版本的moss-moon-003-sft模型,約占用12GB顯存即可進行推理。
          moss-moon-003-sft-int8: 8bit量化版本的moss-moon-003-sft模型,約占用24GB顯存即可進行推理。
          moss-moon-003-sft-plugin-int4: 4bit量化版本的moss-moon-003-sft-plugin模型,約占用12GB顯存即可進行推理。
          moss-moon-003-sft-plugin-int8: 8bit量化版本的moss-moon-003-sft-plugin模型,約占用24GB顯存即可進行推理。

          由于本次實驗所使用的配置如下:
          CPU&內存:28核(vCPU)112 GB
          操作系統:Ubuntu_64
          GPU:NVIDIA Tesla P100
          顯存:16G

          故選擇 moss-moon-003-sft-int4 模型進行部署實驗。

          配置環境與準備

          1、登錄服務器,下載本倉庫內容至服務器,進入MOSS目錄

          git clone https://github.com/OpenLMLab/MOSS.git cd MOSS

          2、創建python3.8版本的conda環境,并進入

          conda create --name moss python=3.8 conda activate moss

          3、根據 requirements.txt 安裝環境依賴

          pip install -r requirements.txt

          4、安裝使用量化模型所需的包(4/8-bit)

          pip install triton

          5、安裝gradio,以便可以使用基于Gradio的網頁demo

          pip install gradio pip install mdtex2html

          其中,mdtex2html 是因為運行時有報錯缺少此包,故這里可以提前裝好。

          6、下載模型文件,這里直接從huggingface上下載到服務器

          # 安裝 huggingface_hub pip install huggingface_hub # 進入模型文件的指定位置 cd /data/sim_chatgpt/

          然后使用下面代碼,將模型文件安裝到指定位置

          from huggingface_hub import snapshot_download snapshot_download(repo_id="fnlp/moss-moon-003-sft-int4", cache_dir="./moss-moon-003-sft-int4")

          下載完成后,得到model_path為:/data/sim_chatgpt/moss-moon-003-sft-int4/models–fnlp–moss-moon-003-sft-int4/snapshots/4e33058483a36ade9067f7f25f3127cb95386b01

          部署推理

          這里有兩種方式,一種是命令行,在服務器上直接運行;一種是網頁版,可以通過鏈接在瀏覽器訪問。

          命令行部署

          這里我們要運行 moss_cli_demo.py 文件,在運行前需要修改model_path,如下:

          parser.add_argument("--model_name", default="/data/sim_chatgpt/moss-moon-003-sft-int4/models--fnlp--moss-moon-003-sft-int4/snapshots/4e33058483a36ade9067f7f25f3127cb95386b01"

          報錯1

          ValueError:
          /data/sim_chatgpt/moss-moon-003-sft-int4/models–fnlp–moss-moon-003-sft-int4/snapshots/4e33058483a36ade9067f7f25f3127cb95386b01
          is not a folder containing a .index.json file.

          解決辦法
          將下面代碼進行替換(注釋掉)

          # model = load_checkpoint_and_dispatch( # raw_model, model_path, device_map="auto", no_split_module_classes=["MossBlock"], dtype=torch.float16 # ) model = MossForCausalLM.from_pretrained(model_path, trust_remote_code=True).half().cuda()

          報錯2:

          運行時報錯,如下圖所示:

          python: /project/lib/Analysis/Utility.cpp:136: bool mlir::supportMMA(mlir::Value, int): Assertion `(version == 1 || version == 2) && “Unexpected MMA layout version found”’ failed.
          遇到問題:https://github.com/OpenLMLab/MOSS/issues/149

          issue中有人提到:

          • 算力小于70的顯卡都不支持Float8 and Float16,P100 P40算力版本都是60+所以暫時只能使用Float32,但是顯存又不夠。NVDIA V100 NVIDIA TITAN V及其以上顯卡可以支持。
          • triton官網說對fp16量化模型支持不完善, p100/40等老顯卡都會報如上的錯. 需要等他們寫入更多老顯卡支持。
            另外有人實測V100 32GB可以跑int4量化模型.

          解決方法如下
          將triton換成auto-gptq,這樣就繞過了triton驗證.

          git clone https://github.com/PanQiWei/AutoGPTQ conda create -n moss python==3.10 cd MOSS python setup_env.py --install_auto_gptq

          另外,需要注意需要修改兩個地方:
          1、修改model
          2、修改model_path

          運行

          python moss_cli_demo.py

          但我并沒有嘗試成功,一個原因在于,github鏈接中沒有setup_env.py,只有setup.py,另一個原因是即使按照github鏈接中提供的安裝方式,無法安裝成功。

          待更…

          網頁版部署

          命令行版本成功后更新網頁版部署

          網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...

          在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...

          在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...

          北京到上海的高鐵票多少錢一張?開往北京、上海的高鐵有47趟。查一下火車時間和票價。出發-到達-出發-到達時間-參考票價G3北京南-上海虹橋14336000-183360484小時48分鐘二等座軟座555、一等座軟座935G1北京南-上海虹橋09336000-1:484小時48分鐘二等座軟座555、一等座軟座935G21北京南-上海虹橋17336000-2133600坐高鐵,北京到上海票價是多少?開...

          e站app怎么用?E站應用程序是一樣的,通過手機號碼,你可以設置一個帳號和密碼,登錄使用使用一個叫“泡芙瀏覽器”的軟件。打開網站的正確方法-亨泰網如果您有帳戶,請直接登錄。如果你沒有賬戶,就注冊一個。2注冊過程非常簡單。首先單擊register,然后會出現一堆TOS。單擊“同意”注冊。三。輸入要注冊的用戶名(登錄賬號)和要顯示的名稱(類似昵稱),輸入并確認密碼和電子郵件,最后輸入要注冊的驗證碼。4...

          阿里申請代銷怎么通過?阿里先申請的話,是從比較多是看你的時間,還有一個資源,比如你選擇類型了一個品牌店,他的話會對你有一個時間要求,是你的在線時長起碼是八個小時,另外的話那就是說你的銷售渠道,或則說簡單說來那就是你的成單率有多少?成單率越高,你越不容易是從品牌方的審核。他們一個最簡單的要求就是你曾經的從事行業過網店銷售,或則說線上銷售,而且有良好素質的業績,這是一個比較好重要的指標。自己的淘寶店鋪...

          TOP
          国产初高中生视频在线观看|亚洲一区中文|久久亚洲欧美国产精品|黄色网站入口免费进人
          1. <nobr id="easjo"><address id="easjo"></address></nobr>

              <track id="easjo"><source id="easjo"></source></track>
              1. 
                

              2. <bdo id="easjo"><optgroup id="easjo"></optgroup></bdo>
              3. <track id="easjo"><source id="easjo"><em id="easjo"></em></source></track><option id="easjo"><span id="easjo"><em id="easjo"></em></span></option>