Add data dir in src

This commit is contained in:
songpx
2023-05-16 23:16:08 +08:00
parent 479a9e26fe
commit af0aecf482
5 changed files with 19 additions and 102 deletions

2
.gitignore vendored
View File

@ -1 +1 @@
data/
./data

View File

@ -0,0 +1,8 @@
[
{
"content": "中华人民共和国最高人民法院 再 审 决 定 书2022最高法刑申136号 原审被告人张某某犯挪用资金罪和伪造、变造国家机关公文罪一案山西省运城市盐湖区人民法院于2012年5月2日以2012运盐刑初字第69号刑事判决认定张克云犯贪污罪判处有期徒刑十二年犯伪造、变造国家机关公文罪判处有期徒刑三年决定执行有期徒刑十三年。宣判后张克云不服提出上诉。山西省运城市中级人民法院于2012年11月12日以2012运中刑二终字第125号刑事裁定驳回上诉维持原判。裁判生效后张克云不服提出申诉。运城市中级人民法院于2013年1月7日以2013运中刑申字第3号驳回申诉通知驳回其申诉。山西省高级人民法院于2017年7月13日以2013晋刑监字第8号再审决定提审本案并于2019年12月24日以2017晋刑再第2号刑事判决认定张克云犯挪用资金罪判处有期徒刑七年六个月与原判伪造、变造国家机关公文罪被判处的有期徒刑三年数罪并罚决定执行有期徒刑十年。张克云仍不服以原审认定事实错误其作为学校董事长、全资投资人有权决定学校相关款项用途学校仍欠其债务个人账户用于学校经费开支没有挪用资金的动机和行为不构成挪用资金罪等为由向本院提出申诉。本院经审查认为原审生效裁判对挪用资金罪定罪量刑的证据不确实、不充分依法应当予以排除。依照《中华人民共和国刑事诉讼法》第二百五十三条第二项、第二百五十四条第二款、第二百五十五条的规定决定如下指令河南省高级人民法院对本案进行再审。二二二年十二月二十九日"
},
{
"content":"中华人民共和国最高人民法院 驳 回 申 诉 通 知 书2022最高法刑申122号 袁某银、袁某财你们因原审被告人袁德银故意伤害一案对江苏省南京市溧水区人民法院2014溧刑初字第268号刑事判决、南京市中级人民法院2015宁刑终字第433号刑事裁定不服以被害人朱宽荣住院期间的136678号报告并未显示其左侧4、5、6、7、8肋骨骨折出院记录及137470号、143006号报告均系伪造江苏省高级人民法院2019苏刑申172号驳回申诉通知书对137470号报告的形成时间认定错误为由向本院提出申诉请求撤销原判依法重新审理本案。本院依法组成合议庭认真审查后认为原审认定原审被告人袁德银因邻里纠纷殴打被害人朱宽荣致其左胸多发肋骨骨折构成轻伤二级其行为构成故意伤害罪并无不当。关于你们提出的原审认定被害人朱宽荣轻伤二级的证据系伪造的申诉理由。首先根据你们提供的136678号报告朱宽荣于2015年2月12日入院时经检查被诊断为左侧多发肋骨骨折该份报告虽未明确骨折的具体位置但与出院记录记载的“左侧多发肋骨骨折4、5、6、7、8”并不矛盾。根据《人体损伤程度鉴定标准》的规定肋骨骨折2处以上即构成轻伤二级故鉴定意见认定朱宽荣的损伤构成轻伤二级并无不当。其次你们主张出院记录、137470号和143006号报告系伪造但并未提供证据证实。即使排除这两份报告也不影响对本案事实的认定。再次我院对申诉进行复查的对象是已经发生法律效力的判决、裁定本案的生效裁判是2014溧刑初字第268号刑事判决和2015宁刑终字第433号刑事裁定江苏省高级人民法院作出的驳回申诉通知书不属于我院复查的范围。综上本院认为你们的申诉不符合《中华人民共和国刑事诉讼法》第二百五十三条规定的应当重新审判的情形予以驳回。望你们尊重人民法院的生效裁判自觉服判息诉。特此通知。二二二年十二月十四日"
}
]

View File

@ -0,0 +1,10 @@
[
{
"instruction": "酒驾撞人要判多久?",
"input": "",
"output": "《刑法》第一百三十三条规定:违反交通运输管理法规,因而发生重大事故,致人重伤、死广或者使公私财产遭受重大损失的,处三年以下有期徒刑或者拘役;交通运输肇事后逃逸,致人重伤的,处三年以上七年以下有期徒刑。交通肇事后逃逸致人死亡的,处七年以上有期徒刑。"
},
{"instruction":"偷狗被派出所抓到,会怎么处理?",
"input":"",
"output":"取决于偷盗的狗的价值,可能按盗窃罪的罪名处理。如果价值达到犯罪标准,就构成盗窃罪,要承担刑事责任;如果不到犯罪标准,就是治安处罚、罚款或者拘留治安处罚这会涉嫌构成盗窃。如果不到一千元,则不会构成犯罪。如果超过一千元,则可能会是构成犯罪的。"}
]

View File

@ -1,50 +0,0 @@
import argparse
import openai
import yaml
import random
def return_random_prompt():
system_prompt = "你需要针对法条内容尽可能联想多样化的场景生成问答数据。我们将用于人工评估 ChatGPT 模型对指令的完成情况。要求:\n"
# generate random tasks
system_prompt += "1. 结合真实问题,表述多样化。\n"
# other requirements
system_prompt += "2. 如果遇到无法处理的指令(只靠文本无法回答),给出无法处理的回复。\n"
system_prompt += "3. 除非特别要求,请使用中文,指令可以是命令句、疑问句、或其他合适的类型。\n"
system_prompt += "4. <Reference>:违反本法规定,对妇女实施性骚扰的,由公安机关给予批评教育或者出具告诫书,并由所在单位依法给予处分。\n学校、用人单位违反本法规定,未采取必要措施预防和制止性骚扰,造成妇女权益受到侵害或者社会影响恶劣的,由上级机关或者主管部门责令改正;拒不改正或者情节严重的,依法对直接负责的主管人员和其他直接责任人员给予处分。\n"
system_prompt += "5. <input>是结合法条内容联想到的真实场景下的问题。要求该场景下存在违法者和受害人\n"
system_prompt += "6. <output>是结合法条内容对该问题的适当且真实的回应,不能只回复答应或拒绝请求。尽可能地指明违法行为可能遭受的惩罚,并向受害者提出维权建议。\n\n"
system_prompt += "请给出满足条件的10条JSON格式数据\n"
return system_prompt
if __name__ == "__main__":
parser = argparse.ArgumentParser()
parser.add_argument('--cfg_path', default='../config.yaml', type=str)
parser.add_argument('--save_path', default='./output.json', type=str)
args = parser.parse_args()
with open(args.cfg_path, 'r') as f:
cfg = yaml.load(f, Loader=yaml.FullLoader)
openai.api_key = cfg['API_KEY']
openai.api_base = cfg['API_BASE_URL']
output_file = open(args.save_path, 'w')
# number of data to generate (each prompt contains 20 JSON-formatted data)
# TODO: 改成流式的,不然会中途断掉
MAX_EPOCHS = 1
for k in range(MAX_EPOCHS):
response = openai.ChatCompletion.create(
# here we use `gpt-3.5-turbo` model, while Stanford-Alpaca uses `text-davinci-003`
model="gpt-3.5-turbo",
messages=[
{"role": "user", "content": return_random_prompt()},
]
)
output_file.write(response["choices"][0]["message"]["content"] + '\n')
output_file.close()

View File

@ -1,51 +0,0 @@
import argparse
import openai
import yaml
import sys
import random
def return_random_prompt():
system_prompt = "你需要针对输入尽可能给出多样化的任务指令和对应的回答。我们将用于人工评估ChatGPT模型对指令的完成情况。要求:\n"
# generate random tasks
task_list = ["开放式生成", "分类", "问答", "编辑", "摘要", "写作", "分析", "抽取"]
system_prompt += "1. 表述多样化,结合真实问题;指令类型多样化,例如:" + "".join(random.sample(task_list, 7)) + "等。\n"
# other requirements
system_prompt += "2. 如果遇到无法处理的指令(只靠文本无法回答),给出无法处理的回复。\n"
system_prompt += "3. 除非特别要求,请使用中文,指令可以是命令句、疑问句、或其他合适的类型。\n"
system_prompt += "4. <input>是:'第十三条 一切危害国家主权、领土完整和安全,分裂国家、颠覆人民民主专政的政权和推翻社会主义制度,破坏社会秩序和经济秩序,侵犯国有财产或者劳动群众集体所有的财产,侵犯公民私人所有的财产,侵犯公民的人身权利、民主权利和其他权利,以及其他危害社会的行为,依照法律应当受刑罚处罚的,都是犯罪,但是情节显著轻微危害不大的,不认为是犯罪。'"
system_prompt += "5. <output>应该是对指令的适当且真实的回应,不能只回复答应或拒绝请求。如果需要额外信息才能回复时,请努力预测用户意图并尝试回复。<output>的内容应少于" + str(random.randint(128, 512)) + "字。\n\n"
system_prompt += "请给出满足条件的20条JSON格式数据\n"
return system_prompt
if __name__ == "__main__":
parser = argparse.ArgumentParser()
parser.add_argument('--cfg_path', default='../config.yaml', type=str)
parser.add_argument('--save_path', default='./output.json', type=str)
args = parser.parse_args()
with open(args.cfg_path, 'r') as f:
cfg = yaml.load(f, Loader=yaml.FullLoader)
openai.api_key = cfg['API_KEY']
openai.api_base = cfg['API_BASE_URL']
output_file = open(args.save_path, 'w')
# number of data to generate (each prompt contains 20 JSON-formatted data)
# TODO: 改成流式的,不然会中途断掉
MAX_EPOCHS = 1
for k in range(MAX_EPOCHS):
response = openai.ChatCompletion.create(
# here we use `gpt-3.5-turbo` model, while Stanford-Alpaca uses `text-davinci-003`
model="gpt-3.5-turbo",
messages=[
{"role": "user", "content": return_random_prompt()},
]
)
output_file.write(response["choices"][0]["message"]["content"] + '\n')
output_file.close()