diff --git a/README.md b/README.md index aaf2742..9b5043c 100644 --- a/README.md +++ b/README.md @@ -1,7 +1,7 @@ # LaWGPT:基于中文法律知识的大语言模型
-
+
@@ -98,15 +98,15 @@ LaWGPT
## 数据构建
-本项目汇总互联网上的中文法律数据源
+本项目基于中文裁判文书网公开法律文书数据、司法考试数据等数据集展开,详情参考[中文法律数据汇总]()
-1. 初步生成数据:根据 [Stanford_alpaca](https://github.com/tatsu-lab/stanford_alpaca#data-generation-process) 和 [self-instruct](https://github.com/yizhongw/self-instruct) 方式生成对话问答数据
-2. 基于知识生成数据:通过 Knowledge-based Self-Instruct 方式基于中文法律结构化知识生成数据。
-3. 引入 ChatGPT 清洗数据,并辅助构造高质量数据集。
+1. 初级数据生成:根据 [Stanford_alpaca](https://github.com/tatsu-lab/stanford_alpaca#data-generation-process) 和 [self-instruct](https://github.com/yizhongw/self-instruct) 方式生成对话问答数据
+2. 知识引导的数据生成:通过 Knowledge-based Self-Instruct 方式基于中文法律结构化知识生成数据。
+3. 引入 ChatGPT 清洗数据,辅助构造高质量数据集。
## 模型训练
-中文法律基座模型 LawGPT 的训练过程分为三个阶段:
+LawGPT 系列模型的训练过程分为两个阶段:
1. 第一阶段:扩充法律领域词表,在大规模法律文书及法典数据上预训练 Chinese-LLaMA
2. 第二阶段:构造法律领域对话问答数据集,在预训练模型基础上指令精调
@@ -190,7 +190,7 @@ LaWGPT
- alpaca-lora: https://github.com/tloen/alpaca-lora
- ChatGLM-6B: https://github.com/THUDM/ChatGLM-6B
-此外,本项目基于诸多开源数据集展开,详见[数据构建](),在此一并表示感谢。
+此外,本项目基于诸多开源数据集展开,详见[数据汇总](),在此一并表示感谢。
## 引用