780m上的AI环境搭建

780m这颗核显在笔记本平台基本已经证明了它的实力–默频约等于1050ti,小超约等于1650,极限超可以摸到1060屁股.我们且不考虑性能.先让它可以被机器学习相关工具调用起来.这也算是一窥amd的AI相关生态.

我们的验证平台是8700g,ubuntu 24.04,现在正式开始探索之旅.

核显ai生态的基础

我们都知道核显的显存就是内存,一般正常的主板bios最多给你分配16g内存作为核显的显存.当然16g并不算少,但对于很多情况来说也不多.好在linux在内核版本6.10开始允许为核显分配更多的内存作为GTT内存参与核显运算

这里解释下现代核显的内存模型.对于核显来说,它并没有自己的显存(vram),因此只能从物理内存中”划一块”当作显存使用.因此我们的物理内存就有了两块组成vram(核显显存)和ram(内存).这两块虽然在物理层面是一样的,但使用时井水不犯河水–vram是核显专用,ram是cpu专用,这两者由于运作机制不同,数据封装等都不相同,因此即便是想也无法直接混用.但很多时候显存并不够用,这时我们就会希望要是能从ram(内存)再分点显存用用就好了.这个再分点给显存的部分就是GTT内存.GTT实际还是ram,只是它只会被核显当作vram使用而已.GTT和vram在使用时大体上是没有区别的,他们之间的区别主要是

区别	`VRAM`	`GTT`
来源	由bios设置划分	由操作系统划分
性能	显示需要的内存性能会更好	由于无法直达Framebuffer因此会略差些

linux内核的这一特性默认会为vram和GTT一共划分一半的内存,而且这个容量是可以设置的,比如假如我们有64g的内存,我们想划分48g给GTT用可以通过编辑/etc/modprobe.d/ttm.conf来调整(以4k页为单位对于48G来说就是)

ttm pages_limit=12582912
ttm page_pool_size=12582912

因此我们完全可以在bios中的将VRAM设置为auto(默认为2g)让核显的vram仅用于显示,计算就全靠GTT.

这个特性刚出来半年,很多软件并没有很好的适配,但很显然,这种白占大显存的便宜很快就会跟上的.

当然你要说缺陷那自然也是有缺陷的.我们本质上还是在物理内存上划一块给显卡用,和apu最早的愿景–统一内存寻址还是有很大区别.但相比起apple的黄金内存,英伟达的振金显存,这个方案成本太低了.

先天不足[2025-04-10]

780m毕竟只是一个核显,它只支持fp32和fp16,这也就意味着它做训练用不了bf16,做推理用不了fp8.由于算力也比较弱,实际能做的事很有限.

更加合适的使用场景还是在推理上,我们可以更多的借助GGUF格式的模型,应为GGUF这种量化方式本质上还是在跑fp16精度,只是它存在一个序列化反序列化的过程. 而这种格式的主战场就是基于llama.cpp的本地大语言模型推理体系以及flux的一部分生态.

rocm的选择

基座运算库有多重要看看老黄赚多少就知道了.cuda早已占据了最好的生态位,这让amd和英特尔的显卡包括核显都很难受.

回到我们的主题,在ubuntu 24.04环境下的780m上我们能用的基座运算库有两种选择

官方的rocm
第三方的lamikr/rocm_sdk_builder 只有官方的rocm.

不过如果打算使用除pytorch/huggingface套件和llama.cp/ollama外的的其他工具,我们就不能装官方rocm和相关工具,而是要借助lamikr/rocm_sdk_builder项目,这个我们后面再说.

官方的rocm

官方的rocm并没有官方支持780m这颗核显(官方目前仅支持7900xtx,7900xt).而且需要注意目前rocm在同时存在amd独显和amd核显的情况下会报错误.因此如果你用的是amd独显需要在bios中禁用核显(amd的这个操作真的很神奇,也因此一般推荐au配n卡).

我们的780m核显虽然可以安装rocm但需要有额外设置而且很多周边工具并不支持(比如onnxruntime等),当然正常用是没啥问题的,而且pytorch和llama.cpp(及其生态比如ollama)是可以正常使用的.我们装官方rocm的时候需要关注下pytorch支持到的版本.截致2025年2月7日,pytorch稳定版支持的rocm版本最高为6.2.4,我们也就以这个版本为基础介绍

安装

可以使用如下步骤安装官方驱动和rocm:

安装安装器

 sudo apt update # 更新软件包的索引或包列表
 sudo apt install "linux-headers-$(uname -r)" "linux-modules-extra-$(uname -r)" # 根据linux内核来安装对应的linux-headers和linux-modules-extra
 sudo apt install python3-setuptools python3-wheel
 sudo usermod -a -G render,video $LOGNAME # 添加当前用户到渲染和视频分组
 wget https://repo.radeon.com/amdgpu-install/6.2.4/ubuntu/noble/amdgpu-install_6.2.60204-1_all.deb # 下载amdgpu安装工具,这里以6.2.60204为例
 sudo apt install ./amdgpu-install_6.2.60204-1_all.deb #安装rocm安装工具
 sudo reboot #重启后生效

上面的代码只是例子,我们安装的是rocm 6.2.4的安装器,具体版本可以查看rocm发布页

为什么选这个版本呢?因为pytorch目前(2025-01-02)只支持到6.2版本.

根据使用场景安装需要组件

上面的代码安装了amdgpu-install这个工具,它是一个amdgpu的管理工具,可以用于安装和更新AMDGPU的驱动, rocm,rocm 组件等amdgpu相关的工具.

在重启后我们重新进入命令行,然后运行amdgpu-install来安装所必须得组件
```
 amdgpu-install --usecase=rocm,graphics,hip
 sudo reboot
```
支持的usecase可以通过命令sudo amdgpu-install --list-usecase查看.

主要的usecase包括
- dkms,仅安装驱动,其他的所有usecase都会安装驱动所以一般不用这个
- graphics,图形界面相关工具,如果你使用ubuntu桌面系统你就得装,不装很多软件会因为显卡报错无法打开(比如各种electron封装)
- multimedia,开源多媒体库相关工具
- multimediasdk,开源多媒体开发,包含multimedia
- workstation,工作站相关工具,包含multimedia同时包含闭源的OpenGL工具
- rocm,显卡做异构计算工具,包括OpenCL运行时,HIP运行时,机器学习框架,和rocm相关的库和工具
- rocmdev,rocm开发工具,包含rocm和相关的调试开发工具
- rocmdevtools,仅包含rocm和相关的调试开发工具
- amf,基于amf编解码器(闭源)的多媒体工具
- lrt,rocm的编译器,运行时和设备库等工具
- opencl,异构计算库opencl相关工具,库和运行时
- openclsdk,包含opencl,同时包含opencl的相关开发工具和头文件等
- hip,高性能计算库hip的运行时
- hiplibsdk,包含hip,同时包含hip开发相关库和工具以及ROCm的数学库
- openmpsdk,并行计算库openmp的运行时和相关库和工具
- mllib,机器学习相关工具和库,包括MIOpen核心和相关库,以及Clang OpenCL
- mlsdk,包含mllib,额外附带MIOpen和Clang OpenCL的开发库
- asan,支持ASAN(内存检测工具)的ROCm工具
正常情况下使用amdgpu-install --usecase=rocm,graphics 安装即可

设置系统连接

也就是设置相关工具的查找位置

 sudo tee --append /etc/ld.so.conf.d/rocm.conf <<EOF
 /opt/rocm/lib
 /opt/rocm/lib64
 EOF

 sudo ldconfig

使用update-alternatives更新配置ROCm二进制文件的路径.
```
 update-alternatives --list rocm
```
设置环境变量

rocm安装好后会被放在/opt/rocm-<ver>目录,我们不妨设置一个环境变量ROCM_HOME
```
 export ROCM_HOME=/opt/rocm-6.2.4
```
- rocm的可执行文件会放在/opt/rocm-<ver>/bin目录. 如果无法使用rocm工具,可以将它的bin目录加入到PATH中
```
  export PATH=$PATH:$ROCM_HOME/bin
```
- rocm的动态链接库会放在/opt/rocm-<ver>/lib目录. 如果要用到这些动态链接库,可以将它临时加入到LD_LIBRARY_PATH
```
  export LD_LIBRARY_PATH=$ROCM_HOME/lib
```
- rocm的模块则会被放在/opt/rocm-<ver>/lib/rocmmod目录.
- 最后,由于我们使用的是核显780m,所以需要额外设置环境变量HSA_OVERRIDE_GFX_VERSION
```
  export HSA_OVERRIDE_GFX_VERSION=11.0.0
```
  这个11.0.0对应的是8000系apu核显的版本.顺道一提780m的编号gfx1103
这样,我们的.zshrc就有如下内容了
```
 # ======================================================================= rocm
 export ROCM_HOME=/opt/rocm-6.2.4
 export PATH=$PATH:$ROCM_HOME/bin
 export HSA_OVERRIDE_GFX_VERSION=11.0.0
```
检查驱动是否正常
```
 dkms status
```
这个命令会打印出显卡的状态

检查rocm是否正常安装

 rocminfo # 检查rocm状态
 clinfo # 检查opencl状态

检查包是否安装正常
```
 apt list --installed
```

版本更新

更新版本我们需要完全卸载已有的rocm,驱动和rocm安装器

sudo amdgpu-install --uninstall # 卸载驱动和库
sudo apt purge amdgpu-install # 卸载安装器
sudo apt autoremove # 卸载对应依赖
sudo reboot # 重启后生效

之后在下载新版本的安装器重新安装配置一次即可

rocm_sdk_builder(推荐)

如果想要用全套ai相关工具,我们还是得借助第三方项目lamikr/rocm_sdk_builder. lamikr/rocm_sdk_builder是一个第三方的rocm方案.它通过给rocm和相关工具源码打补丁的方式让部分相对较新的显卡(核显)可以获得rocm相关工具的原生支持.刚好780m和ubuntu 24.04在它的支持范围内,我们自然也就可以装.当然缺点就是版本相对低些,目前(2025/02/07)只到rocm 6.1.2版本,目前正在慢慢适配6.2版本.相应的,torch,onnxruntime等依赖rocm的库版本也相对更低些,但它可以正常运行sd等常规ai工具.

安装rocm_sdk_builder有2个条件

需要一个干净的系统,不能安装过amd的官方驱动
需要能翻墙的稳定网络环境,依赖项都是在github上的,网络不稳git操作出问题就必须重新下载否则编译无法通过

满足这些条件后我们就可以安装了

# 我们依然惯例的将rocm_sdk_builder项目源码放在~/workspace/init_source
mkdir -p workspace/init_source # 构造目录
cd workspace/init_source
git clone https://github.com/lamikr/rocm_sdk_builder.git
cd rocm_sdk_builder
# 切到rocm_sdk_builder_612分支
git checkout releases/rocm_sdk_builder_612
# 安装所需依赖
./install_deps.sh
# 将当前用户添加到render用户组并重启
sudo adduser [当前用户名] render
sudo reboot

cd workspace/init_source/rocm_sdk_builder
# 选择编译针对的显卡,可以多选,这里我们为780m选择gfx1103
./babs.sh -c
# 下载依赖到src_projects目录,注意下载好后观察log有没有错误,有的话将对应的项目的目录删除重新执行,否则编译会出错
./babs.sh -i
# 编译项目,编译中间文件会被放在builddir文件夹下大约会持续5~10小时
./babs.sh -b

该项目还提供了额外的常用ai应用项目,包括

llama.cpp
VLLM
statble-diffusion-webui

可以通过下面的命令安装

./babs.sh -b binfo/extra/ai_tools.blist

在编译完成后成果会被安装到/opt/rocm_sdk_612目录下–可执行文件被放在/opt/rocm_sdk_612/bin下(还包含一个python3.11环境);相关库的头文件被放在/opt/rocm_sdk_612/include中,如果要使用相关的环境,可以执行source /opt/rocm_sdk_612/bin/env_rocm.sh.

而相关的python库会被编译为whl文件放在项目目录下的packages/whl目录下(我这里就是~/workspace/init_source/rocm_sdk_builder/packages/whl下).

版本更新

这个项目目前还是挺活跃的,releases/rocm_sdk_builder_612这个分支现在也还一直在更新打补丁,我们可以在项目根目录下通过如下命令更新补丁并重新编译有更新的项目

# 更新补丁
./babs.sh -up
# 重新编译安装有新补丁的项目
./babs.sh -b

修复补丁打不上的bug

有用户发现版本更新时有时候会有补丁没打上的bug,可以通过如下命令修复

# 清空项目和编译目标
./babs.sh --clean
# 检查源文件版本是否匹配
./babs.sh -co
# 重新打补丁
./babs.sh -ap
# 重新编译
./babs.sh -b

这样就可以了,需要注意编译过程中一样需要全程保持网络可用且可以访问外网

docker镜像

rocm_sdk_builder项目还提供了一个配套镜像用于通过docker使用rocm.

提供了3个tag对应不同的gpu版本,像我们是780m,就选lamikr/rocm_sdk_builder:612_01_rdna3这个镜像就好. 需要注意这个镜像非常大,有10g+的尺寸,如果要用有私有仓库就放私有仓库,没有建议git pull下来后save下来,省的重复下载

#==============拉取一次,然后保存为tar文件
docker pull lamikr/rocm_sdk_builder:612_01_rdna3
docker save -o lamikr_rocm_sdk_builder_612_01_rdna3.tar lamikr/rocm_sdk_builder:612_01_rdna3

#==============下次需要就重新导入
docker load --input lamikr_rocm_sdk_builder_612_01_rdna3.tar

使用这个镜像只需要要注意将/dev/kfd和/dev/dri加入device并且让容器和用户有一样的组就行

docker run方法

docker run -it --device=/dev/kfd --device=/dev/dri --group-add <render组的id> lamikr/rocm_sdk_builder:612_01_rdna3 bash

docker compose方法

name: myapp

services:
  foo:
    image: lamikr/rocm_sdk_builder:612_01_rdna3
    devices:
      - "/dev/kfd:/dev/kfd"
      - "/dev/dri:/dev/dri"
    group_add:
      - <render组的id>
    command: bash

这个镜像中/opt/rocm_sdk_612/位置就和我们自己编译好后的结构是一样的,我们可以进去以后调用其中的python,然后用下面的脚本检查是否可以调用核显

import torch
torch.cuda.is_available()

先天缺陷

这毕竟是一个第三方基座,我测试后发现跑pytorch的程序是有跑崩的情况的,也就是说他并不健壮.

不同基座下可用的AI工具项目对比

python包

项目	官方Rocm 6.2.4	rocm_sdk_builder_612
pytorch</br>torchaudio</br>torchvision</br>torch_migraphx	可以安装pytorch官方版本	`packages/whl`下的对应wheel安装包(v2.4.1)
triton	可以安装triton官方版本,但一些方法会造成gpu掉驱动挂掉	`packages/whl`下的对应wheel安装包(v3.0.0)
bitsandbytes	无法使用	`packages/whl`下的对应wheel安装包(v0.43.2)
deepspeed	无法使用	`packages/whl`下的对应wheel安装包(v0.15.1)
mpi4py	无法调用gpu	`packages/whl`下的对应wheel安装包(v4.0.1)
onnxruntime_training	无法安装	`packages/whl`下的对应wheel安装包(v1.18.1)
vllm	运行会报错	使用`ai_tools.blist`构造,`packages/whl`下的对应wheel安装包(v0.6.3)

测试过的软件

项目	官方Rocm 6.2.4	rocm_sdk_builder_612
llama.cpp	正常使用	编译`ai_tools.blist`后自带
ollama	需要额外设置就可可以调用核	需要额外设置就可可以调用核显
ComfyUI	运行会报错	使用`packages/whl`下的对应wheel安装包替代原本的依赖可以运行
SDWebUI-forge	运行会报错	使用`packages/whl`下的对应wheel安装包替代原本的依赖可以运行
lora-scripts	运行会报错	使用`packages/whl`下的对应wheel安装包替代原本的依赖可以运行
LLaMA-Factory	运行会报错	使用`packages/whl`下的对应wheel安装包替代原本的依赖可以运行

从对比可以看出至少目前rocm_sdk_builder比官方靠谱太多了.

核显算力测试

780m由于缺少bf16,我们就基本只能用于ai推理,要知道它的算力水平我们可以使用mamf-finder

ps: 参考知乎上这篇文章和这篇文章

wget https://raw.githubusercontent.com/stas00/ml-engineering/refs/heads/master/compute/accelerator/benchmarks/mamf-finder.py

fp16算力测试

使用如下命令进行快速测试:

python mamf-finder.py --m_range 0 20480 256 --n 4096 --k 4096 --output_file=$(date +"%Y-%m-%d-%H:%M:%S").txt --dtype float16

这个测试能达到最大可达结果的80-90%

可以得到大致算力为5.5 TFLOPS即每秒执行5.5万亿次浮点运算次数

rocm_sdk_builder基座下的常用ai环境搭建

rocm_sdk_builder编译安装完成后会提供一个脚本/opt/rocm_sdk_612/bin/env_rocm.sh用于加载对应的设置到环境变量到

我建议将source /opt/rocm_sdk_612/bin/env_rocm.sh直接加到用户的.zshrc中

#========================================================================= rocm
source /opt/rocm_sdk_612/bin/env_rocm.sh

这样就不用每次手工激活rocm环境了.

在激活该环境后我们会发现rocm_sdk_builder提供了python和jupyter,同时环境中也有我们编译安装的其他软件的命令行工具,比如llvm,clang,clinfo,rocminfo,rocm-smi什么的.这些就是在rocm_sdk_builder基座下的常用ai环境搭建的基础.

现在消费级PC硬件上的AI开发使用环境可以看作两条线路

依赖python环境的AI训练推理环境,典型的如Comfyui,lora-script
直接调用底层的AI训练,典型的比如llama.cpp

我这里将我用到的都汇总下方便抄作业.

pytorch开发环境

我们当然可以直接用rocm_sdk_builder提供的python和jupyter环境做为开发环境,但这么多其实并不保险,万一一个不小心把环境搞乱了那就麻烦了,因此我推荐的策略是只直接使用rocm_sdk_builder提供的jupyter,然后通过配置一个基于rocm_sdk_builder提供的python构造的虚拟环境专门用来做开发调试.这样如果即便环境乱了也只要删掉重配一份就好.

配置一个基于rocm_sdk_builder提供的python构造的虚拟环境

# 找个合适的地方放环境
cd <你环境的位置>
# 构造虚拟环境
python -m venv venv 
# 激活虚拟环境
source venv/bin/activate
# 安装`rocm_sdk_builder`提供的各种python包
pip install <rocm_sdk_builder项目位置>/packages/whl/torch-2.4.1-cp311-cp311-linux_x86_64.whl
pip install <rocm_sdk_builder项目位置>/packages/whl/torchaudio-2.4.1+7506e3c-cp311-cp311-linux_x86_64.whl
pip install <rocm_sdk_builder项目位置>/packages/whl/torch_migraphx-0.0.3-cp311-cp311-linux_x86_64.whl  
pip install <rocm_sdk_builder项目位置>/packages/whl/torchvision-0.20.0a0+bea1d4f-cp311-cp311-linux_x86_64.whl
pip install <rocm_sdk_builder项目位置>/packages/whl/triton-3.0.0+git759b4fe3-cp311-cp311-linux_x86_64.whl
pip install <rocm_sdk_builder项目位置>/packages/whl/deepspeed-0.15.1+77f0e5cb-cp311-cp311-linux_x86_64.whl   
pip install <rocm_sdk_builder项目位置>/packages/whl/bitsandbytes-0.43.2.dev0-cp311-cp311-linux_x86_64.whl
pip install <rocm_sdk_builder项目位置>/packages/whl/mpi4py-4.0.1.dev0-cp311-cp311-linux_x86_64.whl
pip install <rocm_sdk_builder项目位置>/packages/whl/onnxruntime_training-1.18.1+cpu-cp311-cp311-linux_x86_64.whl
pip install <rocm_sdk_builder项目位置>/packages/whl/vllm-0.6.3.dev5+g9e9816f6.rocm614-cp311-cp311-linux_x86_64.whl
# 安装其他常用的工具
pip install transformers # 主库
pip install accelerate # 加速模型加载
pip install 'diffusers[torch]' # sd专用库
# 安装jupyter python kernel相关工具
pip install ipykernel # jupyter的python kernel
pip install ipywidget 

配置jupyter lab的python核心 rocm_sdk_builder提供的jupyter的python kernel设置保存在/opt/rocm_sdk_612/share/jupyter/kernels/python3,我们进入其中修改kernel.json即可

{
 "argv": [
  "<你环境的位置>/venv/bin/python", // <-只要改这一行
  "-m",
  "ipykernel_launcher",
  "-f",
  "{connection_file}"
 ],
 "display_name": "Python 3 (ipykernel)",
 "language": "python",
 "metadata": {
  "debugger": true
 }
}需要设置</br>`/etc/systemd/system/ollama.service.d/override.conf`</br>中的`Service.Environment="HSA_OVERRIDE_GFX_VERSION=11.0.0"`</br>

当然了rocm_sdk_builder提供的python作为默认的python也不是一点用也没有,我们可以用它安装huggingface_hub来下载模型.

pip install huggingface_hub

也不要忘了给它配置下国内镜像,由于我们在墙内,下模型就太痛苦了,我们可以先换源hf-mirror,这可以在.zshrc中添加如下环境变量

#========================================================================== huggingface
export HF_ENDPOINT=https://hf-mirror.com # 下载模型的位置
export HF_HUB_CACHE="~/.cache/huggingface/hub" # 制定模型/数据集缓存位置

llama.cpp

在rocm_sdk_builder编译binfo/extra/ai_tools.blist后我们就可以直接在terminal中调用llama.cpp提供的命令行工具了,比如llama-cli等.

ollama

正常llama.cpp都不会被直接安装使用,毕竟它主要是推理框架,推理的模型我们还得自己维护.ollama就是这个可以管理模型的工具. 作为llama.cpp的上层管理工具,ollama自然是可以顺利执行的.它在设计上充分参考了docker–一样的c/s结构,一样的用systemd管理服务,一样定义了一种打包方式用于专门打包模型,一样的有一个中心化的ollma hub用于上传和分化打包好的模型,对习惯docker的用户来说就相当好上手.

ollama最简单的安装方法只需要挂上代理,在有rocm环境的情况下常规安装即可

curl -fsSL https://ollama.com/install.sh | sh

这个安装脚本检测出你有amd显卡后会下载rocm版本的ollama可执行程序,正常情况下它会被安装到/usr/local,同时会配置systemd到/etc/systemd/system/ollama.service.

由于我们是780m,要让igpu成为首选就需要做如下设置:

先停掉ollama
```
 sudo systemctl stop ollama.service
```

进入systemd的设置页设置ollama.service的启动环境(一般文件都还没有,需要创建)

 sudo su
 cd /etc/systemd/system/
 mkdir ollama.service.d
 cd ollama.service.d
 nano override.conf

填入如下内容

 [Service]
 Environment="HSA_OVERRIDE_GFX_VERSION=11.0.0" # 780m需要伪装成gfx1100,因为原版的ollama并不支持gfx1103的780m
 Environment="OLLAMA_MAX_LOADED_MODELS=1" # 仅加载一个模型
 Environment="OLLAMA_NUM_PARALLEL=1" # 仅允许一个并发
 Environment="OLLAMA_ORIGINS=*" # 允许跨域请求
 Environment="OLLAMA_HOST=0.0.0.0" # 允许内网访问

当然了如果有其他要设置的也在这里设置,设置项可以用ollama serve --help查看

重新加载ollama.service的设置,并重启

 sudo systemctl daemon-reload
 sudo systemctl restart ollama.service

需要注意如果你还打算安装n卡独显,你应该先安装ollama再加独显并安装cuda,否则就只能手动下载rocm对应的库并复制到对应目录以支持核显了,这对用笔记本或mini主机且打算外接显卡的用户很重要

# 以v0.6.5为例,下载rocm对应库
wget https://github.com/ollama/ollama/releases/download/v0.6.5/ollama-linux-amd64-rocm.tgz
# 解压到`/usr/local`,会将库放到`/usr/local/lib/ollama/rocm`中
sudo tar -C /usr/local -xzf ollama-linux-amd64-rocm.tgz

解锁全量GTT[2025-04-10]

原版的ollama并没有对核显进行过特殊优化,依然会把核显当独显一样根据vram的大小来拆分,有工单已经提出了这个问题并提交了一个pull-request进行改进,但官方一直迟迟不进行合并.

这个部分的逻辑只在它的go服务部分并不涉及核心计算库的编译所以我们可以自行合并后进行编译替换.

具体步骤是:

克隆ollama源码

 git clone -b v0.6.5 https://github.com/ollama/ollama.git

根据这个pull-request的修改页修改源码对应的文件内容
下载依赖
```
 go generate ./...
```
编译
```
 go build .
```
停掉原本运行中的ollama服务(如果有安装的话)
```
 sudo systemctl stop ollama.service
```

测试编译出来的ollama serve是否可以正常分配

 # 第一个进程中执行启动服务
 HSA_OVERRIDE_GFX_VERSION=11.0.1
 ./ollama serve

 # 第二个进程中执行测试
 # 这里以你设置了16gvram为例.我们可以使用27b的q4量化模型.
 # 这个模型尺寸大致会吃20g现存,如果不成功就会分配一部分给cpu
 ./ollama run gemma3:27b

 # 第三各进程中查看模型层数分配
 # 在第二个进程下载完出现对话框后执行
 # 如果显示GPU 100%则说明成功
 ./ollama ps

替换原本的ollama服务
```
 sudo cp ollama /usr/local/bin/ollama
```
重新启动ollama验证解锁成功
```
 sudo systemctl restart ollama.service
```

性能和使用建议[2025-04-10]

ollama是那种没有gpu用cpu也能跑的软件,但核显还是显著优于cpu的推理速度.

我在同步模式下6000c44内存下测试的大致速度可以总结为如下,挑选模型时可以大致参考

稠密架构模型

规格	速度(t/s)
3b_q5km	23
1.5b_q8	28
7b_q4km	13.8
8b_q4km	12.8
12b_q4km	7.8
14b_q4km	6.5
27b_q4km	3.7
32b_q4km	3.4

moe架构模型

规格	速度(t/s)
16b2a_q4_0	19

但同时也要注意

很多会有<think>的模型比如deepseek-r1,qwq,他们会吐出更多的字,因此他们体感会更慢.
如果内存再超超频率,带宽更大些应该还可以更快一点,但不会超过10%

官方Rocm 6.2.4下的ollama

顺带一提,在官方rocm环境下,ollama和在rocm_sdk_builder下一样,只要安装好rocm就可以用同样的方式激活780m的核显用作推理.

ComfyUI[2025-04-10]

作为目前最流行,生态最丰富的生图工具,ComfyUI现在几乎是ai生图的代名词. 由于rocm_sdk_builder提供了python ai生态下最关键的几个主流库的支持,ComfyUI就天然可以使用了.不过需要注意,Comfyui的插件生态太过庞大,并不一定所有节点都能被支持.

安装

安装也很简单,假设我们要将环境安装到~/Webapp目录下,安装过程可以分成如下步骤

克隆Comfyui项目

 cd ~/Webapp
 git clone https://github.com/comfyanonymous/ComfyUI.git

安装专用环境

 cd ComfyUI
 # 构造虚拟环境
 python -m venv venv 
 # 激活虚拟环境
 source venv/bin/activate
 # 安装`rocm_sdk_builder`提供的各种python包
 pip install <rocm_sdk_builder项目位置>/packages/whl/torch-2.4.1-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/torchaudio-2.4.1+7506e3c-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/torch_migraphx-0.0.3-cp311-cp311-linux_x86_64.whl  
 pip install <rocm_sdk_builder项目位置>/packages/whl/torchvision-0.20.0a0+bea1d4f-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/triton-3.0.0+git759b4fe3-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/deepspeed-0.15.1+77f0e5cb-cp311-cp311-linux_x86_64.whl   
 pip install <rocm_sdk_builder项目位置>/packages/whl/bitsandbytes-0.43.2.dev0-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/mpi4py-4.0.1.dev0-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/onnxruntime_training-1.18.1+cpu-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/vllm-0.6.3.dev5+g9e9816f6.rocm614-cp311-cp311-linux_x86_64.whl
 # 安装其他依赖
 pip install -r requirements.txt
 # 解决应用挂着代理时报错的问题
 pip install 'httpx[socks]'

构造桌面图标(Desktop shortcut),毕竟是桌面linux系统,方便起见我们还是构造一个桌面图标

在comfyui项目下找一张图取名为ComfyUI.png放在根目录下

在comfyui项目下构造一个启动脚本launch.sh放在根目录下

 #!/bin/bash
 source /opt/rocm_sdk_612/bin/env_rocm.sh
 source ./venv/bin/activate
 python main.py --use-pytorch-cross-attention --auto-launch

给launch.sh脚本赋予执行权限
```
 chmod +x launch.sh
```

在~/.local/share/applications目录下新建一个文件ComfyUI.desktop

 [Desktop Entry]
 Version=0.3.14
 Type=Application
 Name=ComfyUI
 Comment=for Stable Diffusion workflow
 Comment[zh_CN]=Stable Diffusion工作流工具
 Path=<ComfyUI的根目录路径>
 Icon=<ComfyUI的根目录路径>/ComfyUI.png
 Exec=<ComfyUI的根目录路径>/./launch.sh
 Terminal=true
 Categories=Graphics;AudioVideo;Application;ConsoleOnly;

重启机器后生效

注意事项

由于780m天生缺少fp8支持,fp8的模型就一个也用不了了.我们就会非常依赖gguf向量化的模型,因此插件city96/ComfyUI-GGUF基本是必备的.
虽然flash-att官方提供了基于triton的rocm支持,但亲测依然会报错.
由于算力不足,出图会很慢,在780m上不要指望快速出图,它适合跑那种需要大量显存,可以一定程度上不在乎时间的任务,也就是说需要抽卡的任务就普遍不太合适,但比如精修图片,放大这类任务就还算合适,毕竟能有这么大显存的独显机器成本能上天

通用加速技术

complie,可以使用eager, aot_eager这两个backend,但加速效果不会超过10%,
teacache,亲测可用,效果明显
first block cache,亲测可用,效果明显

下面是总结的flux生成1024x1024这一工况下不同技术下的加速情况和出图效果(以不加速为基准100%)

方案	参数	耗时	质量损失	结构变化
无加速	—	100%	—	—
tea cache	`rel_l1_thresh=0.4,max_skip_steps=3`	51.69%	较大	部分
first block cache	`residual_diff_threashold=0.12`	58.19%	较小	部分
complie	`backend=aot_eager`	99%	较小	部分

由于数据类型缺失,基于int4和fp4的量化加速技术(比如Nunchaku)就完全无法使用了,这也是为啥我说780m不适合抽卡

回到正题,从上面的比较可以看出正真有点用的还是tea cache和first block cache,他们需要安装对应的插件以获得节点.

可以看到正真有效果的还是tea cache和first block cache,下面是这两种技术适用的范围比较

工况	`tea cache`	`first block cache`
FLUX	ok	ok
PuLID-FLUX	ok	no
HunyuanVideo	ok	ok
LTX-Video	ok	ok
CogVideoX	ok	no
Wan2.1	ok	no
SD3.5	no	ok
SDXL	no	ok

这两种加速工具更多的还是用在抽卡上,但需要注意真需要质量的图还是别用

flux生图

flux生态下我们只要用gguf和fp16的模型就没问题.

Yue生成音乐

这是一个输入文本或音频,输出音乐的大模型.由于也是创作型的模型,也不需要暴露api,我们可以借助comfyui作为界面.

使用插件ComfyUI_YuE.它提供了相当够用的参数.

安装

安装这个插件就是简单的将他克隆到custom_nodes目录下并装好依赖

cd ComfyUI
source venv/bin/activate
cd custom_nodes
git clone https://github.com/smthemex/ComfyUI_YuE.git
pip install -r requirements.txt
# 额外的依赖--sox,保存音频时需要
pip install sox

需要注意这个插件默认使用flash-attention2,但780m并不支持flash-attention,我们可以修改其源码–在插件根目录下的yue_node.py中把attn_implementation="flash_attention_2"都注释掉即可

配置模型

ckpt_00360000.pth和decoder_131000.pth,decoder_151000.pth,放在ComfyUI/models/yue目录下(没有就创建)
pytorch_model.bin放在ComfyUI/custom_nodes/ComfyUI_YuE/inference/xcodec_mini_infer/semantic_ckpts/hf_1_325000/目录下
音乐生成模型,按参数规模和量化程度有如下选择:
- 非量化模型,有24G显存要追求最佳效果的可以用
  - 第一步的7b模型
    - 英文模型,又分普通版和双音轨icl版本
    - 中文模型,又分普通版和双音轨icl版本
    - 日语韩语模型,又分普通版和双音轨icl版本
  - 第二步的1b通用模型
- exllamav2量化版本模型,这个只有社区版,效果会打些折扣,但小显存更友好,目前社区有两个,分别是Doctor-Shotgun/YuE-s1-7B-anneal-en-cot-exl2(配合Doctor-Shotgun/YuE-s2-1B-general-exl2使用)和Alissonerdx/yue-models-exllamav2,但他们都仅提供了英文普通版本的模型,我们要用它只需要选一个然后根据自己的显存大小下载他们对应大小的量化版模型,有条件最好用8bpw版本

个人建议充分利用大显存优势,直接上7b模型且不要进行量化,这会跑很久,但可以获得最佳效果.

lora-scripts

B站知名赛博菩萨秋叶大佬和青龙参与stable diffusion的finetune训练项目,底层还是kohya-ss/sd-scripts但人机交互方面好非常多.基本算是国内搞sd的lora训练的标准工具.

安装

假设我们要将环境安装到~/Webapp目录下,安装过程可以分成如下步骤

克隆lora-scripts项目

 cd ~/Webapp
 git clone https://github.com/Akegarasu/lora-scripts.git

安装专用环境

 cd lora-scripts
 # 构造虚拟环境
 python -m venv venv 
 # 激活虚拟环境
 source venv/bin/activate
 # 安装`rocm_sdk_builder`提供的各种python包
 pip install <rocm_sdk_builder项目位置>/packages/whl/torch-2.4.1-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/torchaudio-2.4.1+7506e3c-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/torch_migraphx-0.0.3-cp311-cp311-linux_x86_64.whl  
 pip install <rocm_sdk_builder项目位置>/packages/whl/torchvision-0.20.0a0+bea1d4f-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/triton-3.0.0+git759b4fe3-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/deepspeed-0.15.1+77f0e5cb-cp311-cp311-linux_x86_64.whl   
 pip install <rocm_sdk_builder项目位置>/packages/whl/bitsandbytes-0.43.2.dev0-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/mpi4py-4.0.1.dev0-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/onnxruntime_training-1.18.1+cpu-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/vllm-0.6.3.dev5+g9e9816f6.rocm614-cp311-cp311-linux_x86_64.whl
 # 安装其他依赖
 pip install -r requirements.txt
 # 解决应用挂着代理时报错的问题
 pip install 'httpx[socks]'

构造桌面图标(Desktop shortcut),毕竟是桌面linux系统,方便起见我们还是构造一个桌面图标

在lora-scripts项目下构造一个启动脚本launch.sh放在根目录下

 #!/bin/bash
 source /opt/rocm_sdk_612/bin/env_rocm.sh
 source ./venv/bin/activate

 export HF_HOME=huggingface
 export PYTHONUTF8=1

 python gui.py "$@"

给launch.sh脚本赋予执行权限
```
 chmod +x launch.sh
```

在~/.local/share/applications目录下新建一个文件lora-scripts.desktopaigctaskqueue--w-24-16

 [Desktop Entry]
 Version=4a30c15
 Type=Application
 Name=SDWebUI
 Comment=Stable Diffusion WebUI
 Comment[zh_CN]=Stable Diffusion网页应用
 Path=/home/hsz/WebApps/stable-diffusion-webui-forge
 Icon=/home/hsz/WebApps/stable-diffusion-webui-forge/icon.png
 Exec=/home/hsz/WebApps/stable-diffusion-webui-forge/./launch.sh
 Terminal=true
 Categories=Development;Application;

重启机器后生效

LLaMA-Factory

通用的llm的finetune工具.

安装

假设我们要将环境安装到~/Webapp目录下,安装过程可以分成如下步骤

克隆LLaMA-Factory项目

 cd ~/Webapp
 git clone https://github.com/hiyouga/LLaMA-Factory.git

安装专用环境

 cd LLaMA-Factory
 # 构造虚拟环境
 python -m venv venv 
 # 激活虚拟环境
 source venv/bin/activate
 # 安装`rocm_sdk_builder`提供的各种python包
 pip install <rocm_sdk_builder项目位置>/packages/whl/torch-2.4.1-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/torchaudio-2.4.1+7506e3c-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/torch_assets/logo.pngmigraphx-0.0.3-cp311-cp311-linux_x86_64.whl  
 pip install <rocm_sdk_builder项目位置>/packages/whl/torchvision-0.20.0a0+bea1d4f-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/triton-3.0.0+git759b4fe3-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/deepspeed-0.15.1+77f0e5cb-cp311-cp311-linux_x86_64.whl   
 pip install <rocm_sdk_builder项目位置>/packages/whl/bitsandbytes-0.43.2.dev0-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/mpi4py-4.0.1.dev0-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/onnxruntime_training-1.18.1+cpu-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/vllm-0.6.3.dev5+g9e9816f6.rocm614-cp311-cp311-linux_x86_64.whl
 # 安装其他依赖
 pip install -r requirements.txt
 # 解决应用挂着代理时报错的问题
 pip install 'httpx[socks]'
 # 安装其他额外依赖
 pip install --upgrade huggingface_hub
 pip install nltk
 pip install jieba
 pip install rouge-chinese
 pip install transformers_stream_generator
 # 将本项目安装到环境
 pip install --no-deps -e .

构造桌面图标(Desktop shortcut),毕竟是桌面linux系统,方便起见我们还是构造一个桌面图标

在lora-scripts项目下构造一个启动脚本launch.sh放在根目录下

 #!/bin/bash
 source /opt/rocm_sdk_612/bin/env_rocm.sh
 source ./venv/bin/activate

 llamhttps://github.com/smthemex/ComfyUI_YuE.gitafactory-cli webui

给launch.sh脚本赋予执行权限
```
 chmod +x launch.sh
```

在~/.local/share/applications目录下新建一个文件LLaMA-Factory.desktop

 [Desktop Entry]
 Version=0.9.2.dev0
 Type=Application
 Name=LLaMA-Factory
 Comment=LLM finetune tools
 Comment[zh_CN]=LLM的微调工具
 Path=/home/hsz/WebApps/LLaMA-Factory
 Icon=/home/hsz/WebApps/LLaMA-Factory/assets/logo.png
 Exec=/home/hsz/WebApps/LLaMA-Factory/./launch.sh
 Terminal=true
 Categories=Development;Application;

重启机器后生效

GPT-SoVITS

全功能的tts工具

安装

假设我们要将环境安装到~/Webapp目录下,安装过程可以分成如下步骤

克隆GPT-SoVITS项目
```
 cd ~/Webapp
 git clone https://github.com/RVC-Boss/GPT-SoVITS.git
```
之后为了依赖不冲突,进入项目根目录修改requirements.txt,把其中numba的版本依赖给去掉

安装专用环境

 cd GPT-SoVITS
 # 构造虚拟环境
 python -m venv venv
 # 安装ffmpeg
 brew install ffmpeg
 # 激活虚拟环境
 source vhttps://github.com/smthemex/ComfyUI_YuE.gitenv/bin/activate
 # 安装`rocm_sdk_builder`提供的各种python包
 pip install <rocm_sdk_builder项目位置>/packages/whl/torch-2.4.1-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/torchaudio-2.4.1+7506e3c-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/torch_migraphx-0.0.3-cp311-cp311-linux_x86_64.whl  
 pip install <rocm_sdk_builder项目位置>/packages/whl/torchvision-0.20.0a0+bea1d4f-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/triton-3.0.0+git759b4fe3-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/deepspeed-0.15.1+77f0e5cb-cp311-cp311-linux_x86_64.whl   
 pip install <rocm_sdk_builder项目位置>/packages/whl/bitsandbytes-0.43.2.dev0-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/mpi4py-4.0.1.dev0-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/onnxruntime_training-1.18.1+cpu-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/vllm-0.6.3.dev5+g9e9816f6.rocm614-cp311-cp311-linux_x86_64.whl
 # 安装其他依赖
 pip install -r requirements.txt
 # 解决应用挂着代理时报错的问题
 pip install 'httpx[socks]'

构造桌面图标(Desktop shortcut),毕竟是桌面linux系统,方便起见我们还是构造一个桌面图标

在SDWebUI-forge项目下找一张图取名为icon.png放在根目录下

在lora-scripts项目下构造一个启动脚本launch.sh放在根目录下

 #!/bin/bash
 source /opt/rocm_sdk_612/bin/env_rocm.sh
 source ./venv/bin/activate
 export https_proxy=http://127.0.0.1:7897 
 export http_proxy=http://127.0.0.1:7897 
 export all_proxy=socks5://127.0.0.1:7897

 python webui.py

给launch.sh脚本赋予执行权限
```
 chmod +x launch.sh
```

在~/.local/share/applications目录下新建一个文件GPT-SoVITS.desktop

 [Desktop Entry]
 Version=d8fc921
 Type=Application
 Name=GPT-SoVITS
 Comment=TTS tools
 Comment[zh_CN]=TTS工具
 Path=/home/hsz/WebApps/GPT-SoVITS
 Icon=/home/hsz/WebApps/GPT-SoVITS/icon.png
 Exec=/home/hsz/WebApps/GPT-SoVITS/./launch.sh
 Terminal=true
 Categories=AudioVideo;Music;Application;ConsoleOnly;

重启机器后生效,要使用时双击图标即可

配置依赖的模型

光安装好是无法使用的,我们还必须先配置好模型.

预训练模型[必装],去lj1995/GPT-SoVITS使用git下载其中的全部文件并放到根目录下的GPT_SoVITS/pretrained_models文件夹下.

  cd <GPT-SoVITS项目路径>
  cd GPT_SoVITS
  rm -rf pretrained_models
  git clone https://huggingface.co/lj1995/GPT-SoVITS pretrained_models

G2PW模型[中文tts需要安装],去这个地址下载文件,解压后文件夹改名为G2PWModel并放到GPT_SoVITS/text目录下
UVR5权重[用于语音和音乐背景音等分离],进入lj1995/VoiceConversionWebUI/uvr5_weights路径,将其中的所有文件和文件夹下载到tools/uvr5/uvr5_weights目录.

ASR(Automatic Speech Recognition,自动语音识别)模型,根据不同的语言将模型下载到tools/asr/models目录下

中文去下载FunASR中文模型(Damo ASR Model,Damo VAD Model,Damo Punc Model这三个模型).

  cd tools/asr/models
  git clone https://www.modelscope.cn/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch.git

  git clone https://www.modelscope.cn/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch.git

  git clone https://www.modelscope.cn/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch.git

英语和日语去下载Faster Whisper Large V3

  cd tools/asr/models
  git clone https://huggingface.co/Systran/faster-whisper-large-v3

粤语去下载FunASR粤语模型.

  cd tools/asr/models
  git clone https://www.modelscope.cn/iic/speech_uniasr_asr_2pass-cantonese-chs-16k-common-vocab1468-tensorflow1-online.git

CosyVoice

CosyVoice是阿里开源的人声复制工具,效果我个人感觉比GPT-SoVITS要好,但也确实慢.

安装

假设我们要将环境安装到~/Webapp目录下,安装过程可以分成如下步骤

克隆CosyVoice项目

 cd ~/Webapp
 git clone https://github.com/FunAudioLLM/CosyVoice.git

之后为了依赖不冲突,进入项目根目录创建requirements_rocm.txt来安装依赖

 conformer==0.3.2
 deepspeed
 diffusers==0.29.0
 gdown==5.1.0
 gradio==5.4.0
 grpcio==1.57.0
 grpcio-tools==1.57.0
 hydra-core==1.3.2
 HyperPyYAML==1.2.2
 inflect==7.3.1
 librosa==0.10.2
 lightning==2.2.4
 matplotlib==3.7.5
 modelscope==1.15.0
 networkx==3.1
 omegaconf==2.3.0
 onnx
 onnxruntime
 openai-whisper==20231117
 protobuf==4.25
 pydantic==2.7.0
 pyworld==0.3.4
 rich==13.7.1
 soundfile==0.12.1
 tensorboard==2.14.0
 torch
 torchaudio
 transformers==4.40.1
 uvicorn==0.30.0
 wget==3.2
 fastapi==0.115.6
 fastapi-cli==0.0.4
 WeTextProcessing==1.0.3

安装专用环境

 cd CosyVoice
 # 安装依赖的sox相关包
 sudo apt-get install sox libsox-dev
 # 构造虚拟环境
 python -m venv venv
 # 激活虚拟环境
 source venv/bin/activate
 # 安装`rocm_sdk_builder`提供的各种python包
 pip install <rocm_sdk_builder项目位置>/packages/whl/torch-2.4.1-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/torchaudio-2.4.1+7506e3c-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/torch_migraphx-0.0.3-cp311-cp311-linux_x86_64.whl  
 pip install <rocm_sdk_builder项目位置>/packages/whl/torchvision-0.20.0a0+bea1d4f-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/triton-3.0.0+git759b4fe3-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/deepspeed-0.15.1+77f0e5cb-cp311-cp311-linux_x86_64.whl   
 pip install <rocm_sdk_builder项目位置>/packages/whl/bitsandbytes-0.43.2.dev0-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/mpi4py-4.0.1.dev0-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/onnxruntime_training-1.18.1+cpu-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/vllm-0.6.3.dev5+g9e9816f6.rocm614-cp311-cp311-linux_x86_64.whl
 # 安装其他依赖
 pip install -r requirements_rocm.txt

CosyVoice本质上还是一个python包,它给的webui还是相当简陋的,个人认为并不值得封装成快捷方式,需要的时候用

 python webui.py -port 5000 --model_dir pretrained_models/CosyVoice-300M

这样的形式启动就好,个人还是更推荐自己些python脚本,灵活很多

配置依赖的模型

光安装好是无法使用的,我们还必须先配置好预训练模型.

# git模型下载，请确保已安装git lfs
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B # 最新的CosyVoice v2预训练模型,带情感控制
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M #CosyVoice v1基本模型
git clone https://www.modelscope.cn/iic/CosyVoice-300M-25Hz.git pretrained_models/CosyVoice-300M-25Hz
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct # 带情感控制的CosyVoice v1模型
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

ChatTTS-ui

ChatTTS-ui是一款基于ChatTTS的tts工具,我个人认为它是用于对话最佳的选择

安装

假设我们要将环境安装到~/Webapp目录下,安装过程可以分成如下步骤

克隆ChatTTS-ui项目

 cd ~/Webapp
 git clone https://github.com/jianchang512/ChatTTS-ui.git

安装专用环境

 cd ChatTTS-ui
 # 构造虚拟环境
 python -m venv venv
 # 激活虚拟环境
 source venv/bin/activate
 # 安装`rocm_sdk_builder`提供的各种python包
 pip install <rocm_sdk_builder项目位置>/packages/whl/torch-2.4.1-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/torchaudio-2.4.1+7506e3c-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/torch_migraphx-0.0.3-cp311-cp311-linux_x86_64.whl  
 pip install <rocm_sdk_builder项目位置>/packages/whl/torchvision-0.20.0a0+bea1d4f-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/triton-3.0.0+git759b4fe3-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/deepspeed-0.15.1+77f0e5cb-cp311-cp311-linux_x86_64.whl   
 pip install <rocm_sdk_builder项目位置>/packages/whl/bitsandbytes-0.43.2.dev0-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/mpi4py-4.0.1.dev0-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/onnxruntime_training-1.18.1+cpu-cp311-cp311-linux_x86_64.whl
 pip install <rocm_sdk_builder项目位置>/packages/whl/vllm-0.6.3.dev5+g9e9816f6.rocm614-cp311-cp311-linux_x86_64.whl
 # 安装其他依赖
 pip install -r requirements.txt

780m上的AI环境搭建

核显ai生态的基础

先天不足[2025-04-10]

rocm的选择

官方的rocm

安装

版本更新

rocm_sdk_builder(推荐)

版本更新

修复补丁打不上的bug

docker镜像

先天缺陷

不同基座下可用的AI工具项目对比

核显算力测试

rocm_sdk_builder基座下的常用ai环境搭建

pytorch开发环境

llama.cpp

ollama

解锁全量GTT[2025-04-10]

性能和使用建议[2025-04-10]

官方Rocm 6.2.4下的ollama

ComfyUI[2025-04-10]

安装

注意事项

通用加速技术

flux生图

Yue生成音乐

安装

配置模型

lora-scripts

安装

LLaMA-Factory

安装

GPT-SoVITS

安装

配置依赖的模型

CosyVoice

安装

配置依赖的模型

ChatTTS-ui

安装

POST TAGS

POST Category