网站cpm文章生成训练教程

今天带来网站cpm文章生成训练教程需要的软件及说明

下载火车头采集器

程序学习文章所需格式为txt文档,每篇文章为一个txt文档。

txt文档格式要求

 

可以下载火车头采集器在网络上进行文章的而采集,采集规则每个平台不一样,采集流程可以在网络上进行学习

训练代码说明

preprocess.py

此文件为预处理文件,用来对每个txt文件,取出标题与内容,预处理成功后的数据保存为train.pkl,存储在data文件下

 

train.py

此文件为训练文件,预处理txt文章后运行此文件对预处理后的数据进行训练学习。

 

第一条红线

训练时,文章的长度

第二条红线

训练次数,训练次数越多,文章生成的效果越通顺

第三个红框

gpu的训练大小,可以理解为速度,数值越高,训练速度越快

第四条红线

训练成功后,模型存放位置

第五条红线

预训练模型存放路径,存放的是和程序代码一起购买的模型

训练操作

谷歌服务器训练操作

把采集后的文件(文件名称自定义,最好英文或者数字)上传到谷歌云盘CPM-main目录下

 

在谷歌云盘首页双击打开jupyter笔记本

 

点击运行按钮进行第三方库安装

依次安装第三方库:transformers==4.6.0、sentencepiece==0.1.94、torch==1.7.0、Flask==1.1.2

安装命令 pip install transformers==4.6.0

安装命令 pip install sentencepiece==0.1.94

安装命令 pip install torch==1.7.0

安装命令 pip install Flask==1.1.2

 

preprocess.py预处理文件修改

红线为路径补充,第三条红线为刚上传的行业文章路径

 

运行preprocess.py预处理文件。

 

如下方图,为预处理成功。

在预处理过程中如果处问题,基本问题都出现在文章文档上,把数据为空的、只有标题没有内容的、编码不是utf-8的文档删除

 

预处理成功后会在CPM-main/data/存放一个train.pkl文件

 

train.py训练文件修改

红线为路径补充,初了划线的要修改外,在代码256行还有一个要补充的路径。

红框里面的数字“1”为训练次数,训练次数越多,效果越好。后面两个数字“6”为显卡的使用大小,可以理解为数值越大,训练速度越快。

 

运行train.py训练文件。

 

如下方图,为训练文章模型开始。

训练模型所需时间由学习文章数量、训练次数、电脑配置来决定。

按照行业模型为例,每个模型由15-20W篇文章和15-20次训练所得,在谷歌服务器会员等级下,每天只可以完成训练1次。

例如把训练次数“1”改为“5”,因为GPU容量不够,训练第二次后可能训练终止了。如果预处理的文章篇数少可以设置多次训练次数。(此限制本地不受影响)

 

训练成功后会在CPM-main/model/存放一个model1文件

 

训练结束后运行generate.py文件进行文章生成

运行命令:!python /content/drive/MyDrive/CPM-main/generate.py

点击运行按钮进行生成代码运行

 

generate.py生成文件第一个箭头为生成文章字数,红线为需要补充的路径,第二个红线为训练生成后的模型存放路径

资源下载此资源仅限注册用户下载,请先
欢迎加入官方1群:526682442
客服QQ:1561406017
本站源码都用D盾扫过没有后门木马的,但是安全起见大家下载之后可以自行再扫一遍
注意:价格只是提供资源下载,不包含任何服务。
本站程序前面写都会有标注,如果程序不会,可以开通vip或者付费解决。小白请勿下载
资源下载
下载价格免费
欢迎加入官方1群:526682442
客服QQ:1561406017
本站源码都用D盾扫过没有后门木马的,但是安全起见大家下载之后可以自行再扫一遍
注意:价格只是提供资源下载,不包含任何服务。
本站程序前面写都会有标注,如果程序不会,可以开通vip或者付费解决。小白请勿下载

原文链接:https://www.zylou.cn/2007.html,未经允许,禁止转载。

评论0

请先

站内大部分资源收集于网络,若侵犯了您的合法权益,请联系我们删除!欢迎投稿资源赚佣金
没有账号? 注册  忘记密码?