from mindspore_serving.client import MindsporeInferenceClient
client = MindsporeInferenceClient(model_type="llama2", server_url="http://127.0.0.1:8080")
# 1. test generate
text = client.generate("what is Monetary Policy?").generated_text
print('text: ', text)
# 2. test generate_stream
text = ""
for response in client.generate_stream("what is Monetary Policy?", do_sample=False, max_new_tokens=200):
print("response 0", response)
if response.token:
text += response.token.text
else:
text = response.generated_text
print(text)
MindSpore LLM-Serving
serving is a fast and easy-to-use LLM inference framework
Features
Supports the most popular LLMs, including the following architectures:
Get Started
环境依赖
一键安装whl包
注:后处理当前按照入图的方式进行,使用serving前请使用post_sampling_model.py重新导出后处理模型,保证数据类型与LLM模型的输出类型一致;
修改模型对应的配置文件
带PagedAttention配置
yaml文件
在模型对应的配置文件
configs/模型名称/xxx.yaml中,用户可自行修改模型,并通过page_attention开启PA的模型训练(True为启动模型PA功能,并在后面添加pa_config的设置项,具体参数根据模型来设置)prefill_ini
decode_ini
不带PagedAttention配置
prefill_ini
decode_ini
WizardCoder配置(静态shape)
lite_ini
支持mindspore kbk 训推一体化 yaml 配置
带PA yaml 配置
设置环境变量,变量配置如下
方式一:使用已有脚本启动
方式二:镜像
下载好docker镜像后创建容器
启动
启动参数:config: 模型对应的yaml文件, refer to model.yaml
发起请求
通过“/models/model_name/generate”和”/models/model_name/generate_stream” 进行请求
或者通过python API