采集器可以通过设置的词库,来进行中文分词,就是经常说的自动提取关键词。
1, 设置词库
如下图:
![图片[1]-火车采集器V9版工具功能之中文分词[db:副标题]-创业网站](/Data/Attachment/day_200810/202008101404456730.jpg)
如上图 工具==》中文分词管理,来进行中文分词管理
![图片[2]-火车采集器V9版工具功能之中文分词[db:副标题]-创业网站](/Data/Attachment/day_200810/202008101414336060.jpg)
点击上图的“分词”按钮,来使用采集器内置的词库,进行分词测试。
点击右下角的“编辑用户词库”,打开下图:
![图片[3]-火车采集器V9版工具功能之中文分词[db:副标题]-创业网站](/Data/Attachment/day_200810/202008101415194918.jpg)
“分词高级设置”:是通过你选择的词性来进行分词。
“用户使用词库”:在这里添加的词,只要在采集结果里面出现,就会被提取为关键词。
“用户禁用词库”:顾名思义,这里添加的词,在采集结果里面出现,是不会做为关键词提取出来的。
设置好了点击“保存”按钮,保存。
2, 分词功能使用
![图片[4]-火车采集器V9版工具功能之中文分词[db:副标题]-创业网站](/Data/Attachment/day_200810/202008101417316468.jpg)
数据处理==》添加==》高级功能==》自动分词,来使用分词功能。
提取后的关键词数量和分隔符设置:
![图片[5]-火车采集器V9版工具功能之中文分词[db:副标题]-创业网站](/Data/Attachment/day_200810/202008101418137078.jpg)
整理不易,请坚持看完,并去执行
你的坚持,是我们坚持更新下去的动力
学习更多项目知识,请关注公众号:品小先Ai
觉得文章有用的话,点个好看,转发朋友圈,多谢!

![火车采集器V9-获取内容页网址[db:副标题]-创业网站](/Data/Attachment/day_201125/202011251013567704.png)
![V9-起始网址数据库导入功能[db:副标题]-创业网站](/Data/Attachment/day_200325/202003251344386437.png)
![winSock重置方法[db:副标题]-创业网站](http://faq.locoy.com/Data/Attachment/day_201109/202011090946485906.png)
![V9-任意格式文件下载功能[db:副标题]-创业网站](/Data/Attachment/day_200728/202007280843544651.png)
![软件启动报错:由于未经处理的异常,进程终止,System.Security.Cryptography.MD5Cng[db:副标题]-创业网站](/Data/Attachment/day_230420/202304201116549236.png)
![火车采集器oss上传使用方法以及注意事项[db:副标题]-创业网站](/Data/Attachment/day_210813/202108131454153051.png)
![V9-本地编辑数据中点击编码时软件闪退的解决方法[db:副标题]-创业网站](/Data/Attachment/day_191128/201911281722033466.jpg)
![v9-5118智能原创使用教程[db:副标题]-创业网站](/Data/Attachment/day_230404/202304041330429269.jpg)
![数据获取中的css提取功能简介[db:副标题]-创业网站](/Data/Attachment/day_210630/202106301437437032.png)
![七牛云功能详解[db:副标题]-创业网站](/Data/Attachment/day_220526/202205261106144318.png)
暂无评论内容