From 0a3df5e24e1d7b0dc4ed73eeb7d32659204ec25b Mon Sep 17 00:00:00 2001
From: Pengxiao Song <47233927+pengxiao-song@users.noreply.github.com>
Date: Mon, 22 May 2023 16:48:12 +0800
Subject: [PATCH] [DOC]: Update README.md
---
README.md | 64 ++++++++++++++++++++++++-------------------------------
1 file changed, 28 insertions(+), 36 deletions(-)
diff --git a/README.md b/README.md
index 434a3fc..7ff4c92 100644
--- a/README.md
+++ b/README.md
@@ -24,6 +24,7 @@ LaWGPT 是一系列基于中文法律知识的开源大语言模型。
本项目持续开展,法律领域数据集及系列模型后续相继开源,敬请关注。
## 更新
+- 🛠️ 2023/05/22:项目主分支结构调整,详见[项目结构](https://github.com/pengxiao-song/LaWGPT#项目结构)
- 🪴 2023/05/15:发布 [中文法律数据源汇总(Awesome Chinese Legal Resources)](https://github.com/pengxiao-song/awesome-chinese-legal-resources) 和 [法律领域词表](https://github.com/pengxiao-song/LaWGPT/blob/main/resources/legal_vocab.txt)
@@ -44,35 +45,25 @@ LaWGPT 是一系列基于中文法律知识的开源大语言模型。
1. 准备代码,创建环境
```bash
- # clone 代码
+ # 下载代码
git clone git@github.com:pengxiao-song/LaWGPT.git
cd LaWGPT
- # 切换到 dev 分支
- git checkout dev
-
# 创建环境
conda create -n lawgpt python=3.10 -y
conda activate lawgpt
pip install -r requirements.txt
- # 执行ui脚本(脚本会下载预训练模型,预计占用15GB)
+ # 启动可视化脚本(自动下载预训练模型约15GB)
bash ./scripts/webui.sh
```
-2. 打开浏览器,访问 http://127.0.0.1:7860/ .在Instruction框输入法律问题,点击"Submit"按钮, 等待模型生成答案
+2. 访问 http://127.0.0.1:7860 :
-3. 如果您想使用自己的数据进行finetune,请查看脚本`scripts/finetune.sh`:
- ```bash
- # 设置好对应参数后运行脚本
- bash ./scripts/finetune.sh
- ```
-
-
-2. 合并模型权重(可选)
+3. 合并模型权重(可选)
**如果您想使用 LaWGPT-7B-alpha 模型,可跳过改步,直接进入步骤3.**
@@ -85,25 +76,26 @@ LaWGPT 是一系列基于中文法律知识的开源大语言模型。
## 项目结构
-```bash
+```bash
LaWGPT
-├── assets # 项目静态资源
-├── data # 语料及精调数据
-├── tools # 数据清洗等工具
+├── assets # 静态资源
+├── resources # 项目资源
+├── models # 基座模型及 lora 权重
+│ ├── base_models
+│ └── lora_weights
+├── outputs # 指令微调的输出权重
+├── data # 实验数据
+├── scripts # 脚本目录
+│ ├── finetune.sh # 指令微调脚本
+│ └── webui.sh # 启动服务脚本
+├── templates # prompt 模板
+├── tools # 工具包
+├── utils
+├── train_clm.py # 二次训练
+├── finetune.py # 指令微调
+├── webui.py # 启动服务
├── README.md
-├── requirements.txt
-└── src # 源码
- ├── finetune.py
- ├── generate.py
- ├── models # 基座模型及 Lora 权重
- │ ├── base_models
- │ └── lora_weights
- ├── outputs
- ├── scripts # 脚本文件
- │ ├── finetune.sh # 指令微调
- │ └── generate.sh # 服务创建
- ├── templates
- └── utils
+└── requirements.txt
```
@@ -124,13 +116,13 @@ LawGPT 系列模型的训练过程分为两个阶段:
### 二次训练流程
-1. 参考 `src/data/example_instruction_train.json` 构造二次训练数据集
-2. 运行 `src/scripts/train_lora.sh`
+1. 参考 `data/example_instruction_train.json` 构造二次训练数据集
+2. 运行 `scripts/train_lora.sh`
### 指令精调步骤
-1. 参考 `src/data/example_instruction_tune.json` 构造指令微调数据集
-2. 运行 `src/scripts/finetune.sh`
+1. 参考 `data/example_instruction_tune.json` 构造指令微调数据集
+2. 运行 `scripts/finetune.sh`
### 计算资源
@@ -227,4 +219,4 @@ LawGPT 系列模型的训练过程分为两个阶段:
## 引用
-如果您觉得我们的工作对您有所帮助,请考虑引用该项目
\ No newline at end of file
+如果您觉得我们的工作对您有所帮助,请考虑引用该项目