diff --git a/README.md b/README.md index 434a3fc..7ff4c92 100644 --- a/README.md +++ b/README.md @@ -24,6 +24,7 @@ LaWGPT 是一系列基于中文法律知识的开源大语言模型。 本项目持续开展,法律领域数据集及系列模型后续相继开源,敬请关注。 ## 更新 +- 🛠️ 2023/05/22:项目主分支结构调整,详见[项目结构](https://github.com/pengxiao-song/LaWGPT#项目结构) - 🪴 2023/05/15:发布 [中文法律数据源汇总(Awesome Chinese Legal Resources)](https://github.com/pengxiao-song/awesome-chinese-legal-resources) 和 [法律领域词表](https://github.com/pengxiao-song/LaWGPT/blob/main/resources/legal_vocab.txt) @@ -44,35 +45,25 @@ LaWGPT 是一系列基于中文法律知识的开源大语言模型。 1. 准备代码,创建环境 ```bash - # clone 代码 + # 下载代码 git clone git@github.com:pengxiao-song/LaWGPT.git cd LaWGPT - # 切换到 dev 分支 - git checkout dev - # 创建环境 conda create -n lawgpt python=3.10 -y conda activate lawgpt pip install -r requirements.txt - # 执行ui脚本(脚本会下载预训练模型,预计占用15GB) + # 启动可视化脚本(自动下载预训练模型约15GB) bash ./scripts/webui.sh ``` -2. 打开浏览器,访问 http://127.0.0.1:7860/ .在Instruction框输入法律问题,点击"Submit"按钮, 等待模型生成答案 +2. 访问 http://127.0.0.1:7860 :

-3. 如果您想使用自己的数据进行finetune,请查看脚本`scripts/finetune.sh`: - ```bash - # 设置好对应参数后运行脚本 - bash ./scripts/finetune.sh - ``` - - -2. 合并模型权重(可选) +3. 合并模型权重(可选) **如果您想使用 LaWGPT-7B-alpha 模型,可跳过改步,直接进入步骤3.** @@ -85,25 +76,26 @@ LaWGPT 是一系列基于中文法律知识的开源大语言模型。 ## 项目结构 -```bash +```bash LaWGPT -├── assets # 项目静态资源 -├── data # 语料及精调数据 -├── tools # 数据清洗等工具 +├── assets # 静态资源 +├── resources # 项目资源 +├── models # 基座模型及 lora 权重 +│ ├── base_models +│ └── lora_weights +├── outputs # 指令微调的输出权重 +├── data # 实验数据 +├── scripts # 脚本目录 +│ ├── finetune.sh # 指令微调脚本 +│ └── webui.sh # 启动服务脚本 +├── templates # prompt 模板 +├── tools # 工具包 +├── utils +├── train_clm.py # 二次训练 +├── finetune.py # 指令微调 +├── webui.py # 启动服务 ├── README.md -├── requirements.txt -└── src # 源码 - ├── finetune.py - ├── generate.py - ├── models # 基座模型及 Lora 权重 - │ ├── base_models - │ └── lora_weights - ├── outputs - ├── scripts # 脚本文件 - │ ├── finetune.sh # 指令微调 - │ └── generate.sh # 服务创建 - ├── templates - └── utils +└── requirements.txt ``` @@ -124,13 +116,13 @@ LawGPT 系列模型的训练过程分为两个阶段: ### 二次训练流程 -1. 参考 `src/data/example_instruction_train.json` 构造二次训练数据集 -2. 运行 `src/scripts/train_lora.sh` +1. 参考 `data/example_instruction_train.json` 构造二次训练数据集 +2. 运行 `scripts/train_lora.sh` ### 指令精调步骤 -1. 参考 `src/data/example_instruction_tune.json` 构造指令微调数据集 -2. 运行 `src/scripts/finetune.sh` +1. 参考 `data/example_instruction_tune.json` 构造指令微调数据集 +2. 运行 `scripts/finetune.sh` ### 计算资源 @@ -227,4 +219,4 @@ LawGPT 系列模型的训练过程分为两个阶段: ## 引用 -如果您觉得我们的工作对您有所帮助,请考虑引用该项目 \ No newline at end of file +如果您觉得我们的工作对您有所帮助,请考虑引用该项目