ChatRWKV是由PENG Bo训练的语言模型,目前有对话和写作两种模型。
作者GitHub首页
(相关资料图)
https://github.com/BlinkDL
下面是ChatRWKV 本地部署教程
预先准备
1.按win,输入cmd,回车
在命令行中输入
nvidia-smi
保证cuda版本大于等于11.7
如果满足要求,进行下一步;
如果不满足要求,请更新显卡驱动。
检查电脑有无Python 3.10,直接win,然后输入py应该就会出现;
如果没有Python3.10,浏览器输入网址
https://www.python.org/ftp/python/3.10.10/python-3.10.10-amd64.exe
下载后安装即可
第一步:下载项目和模型
用Git或者直接下载zip的方式下载项目
项目地址:https://github.com/BlinkDL/ChatRWKV
在该网址下载模型
https://huggingface.co/BlinkDL
名称含义,举例:RWKV-4-Raven-7B-v7-ChnEng-20230404-ctx2048
RWKV为模型名称
4表示第四代RWKV
Raven表示模型系列,Raven适合与用户对话,testNovel更适合写网文
7B表示参数数量,B=Billion
v7表示版本,字面意思,模型在不断进化
ChnEng表示该模型的语料为大部分中文(60%)和少部分英文(40%)
至于ctx,我也不清楚(´。_。`)
具体细节见网址
https://zhuanlan.zhihu.com/p/618011122
下载完模型后,把模型放到chatrwkv/model目录下,没有这个文件夹就新建一个
第二步:搭建环境
cd到项目目录,然后创建虚拟环境
切换到储存项目的盘符
cd到项目目录
也可以直接在项目根目录下在路径框内输入cmd
然后进入环境
打开资源管理器,查看项目目录,会新增一个文件夹,文件夹名称就是你给虚拟环境取的名字
(之后每当你想启动此环境,就需要在此目录下执行.\环境名称\Scripts\activate)
然后执行以下命令:
如果无法下载请用魔法或者换源,具体百度
第三步:设置
接下来,返回根目录,进入v2文件夹,打开chat.py
这一部分决定了显存占用和内存占用,纯GPU运算是最快的,具体请根据自己的硬件水平进行调节,我的显存为8g,在关闭cuda编译的情况下无法运行7b模型。
详见下图
这里两行,上面不用管,下面的["RWKV_CUDA_ON"] = '1'时,为开启cuda编译模式,会提升推理速度,并且降低显存占用,但是打开可能报错,没有技术就老老实实设置成0吧
这两个参数表示模型载入后使用的prompt,上面表示加载Chinese-2.py,prompt的位置在v2\prompt\default下,你可以根据需要自行修改prompt
这里的代码决定了你运行的模型,请在
args.MODEL_NAME =
后面填写模型路径
注意用/而不是\
这一部分,详见
https://zhuanlan.zhihu.com/p/609154637
最后一步
设置完成后,就可以开始运行程序了!在项目根目录下新建一个bat文件,把以下代码修改后复制进去,ctrl+s保存,然后双击bat。(要是愿意继续手打代码,不用bat也不是不行)
如果提示CUDA out the memory,跳转到教程第三步,根据图14继续调整。
参考文档:
开源1.5/3/7B中文小说模型:显存3G就能跑7B模型,几行代码即可调用 - PENG Bo
https://zhuanlan.zhihu.com/p/609154637
发布几个RWKV的Chat模型(包括英文和中文)7B/14B欢迎大家玩 - PENG Bo
https://zhuanlan.zhihu.com/p/618011122
ChatRWKV懒人版python包 - 漂浮的金链子
https://zhuanlan.zhihu.com/p/612879065