示例网址,新浪滚动新闻:https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1
点击下一页,抓包可获取真实地址:
https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1
分析json数据可以得知 url 后面的是内容页网址,设置如下:
![图片[1]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站](/Data/Attachment/day_191121/201911211017183106.png)
![图片[2]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站](/Data/Attachment/day_191121/201911211016272366.png)
此网址采集需要设置头信息 Referer: https://news.sina.com.cn/roll/ 。头信息的获取可以参考此教程:点此跳转>>
![图片[3]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站](/Data/Attachment/day_191129/201911291343281638.png)
可以看到采集的网址里有很多 \\ ,导致网址无法访问,而且网址不规则,不易处理。
![图片[4]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站](/Data/Attachment/day_191121/201911211019224674.png)
这种可以使用新增的“地址处理”功能
1. 内容替换/排重
可以对网址中内容进行替换,且替换完成后,重复的网址会自动去重。
![图片[5]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站](/Data/Attachment/day_191121/201911211030078339.png)
![图片[6]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站](/Data/Attachment/day_191121/201911211030274116.png)
![图片[7]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站](/Data/Attachment/day_191121/201911211021039253.png)
![图片[8]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站](/Data/Attachment/day_191121/201911211031153915.png)
2. 纯正则替换
可以使用正则表达式进行匹配,和内容替换功能类似
3. 字符编码处理
网址中有需要转码的内容,比如采到的链接里有 & 可以进行解码
https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1
![图片[9]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站](/Data/Attachment/day_191121/201911211032516409.png)
对于网址中有中文需要转码后才能访问的,也可以在这里设置,比如
![图片[10]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站](/Data/Attachment/day_200813/202008130848008358.png)
![图片[11]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站](/Data/Attachment/day_200813/202008130849248652.png)
但是,只是这样设置我们会发现网址中的 : / & ? = 这些也被转码了,导致网址无法访问,所以需要再设置内容替换,把这些字符替换回去。
![图片[12]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站](/Data/Attachment/day_200813/202008130853126546.png)
![图片[13]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站](/Data/Attachment/day_200813/202008130856056822.png)
![图片[14]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站](/Data/Attachment/day_200813/202008130856134620.png)
整理不易,请坚持看完,并去执行
你的坚持,是我们坚持更新下去的动力
学习更多项目知识,请关注公众号:品小先Ai
觉得文章有用的话,点个好看,转发朋友圈,多谢!

![火车采集器V9-获取内容页网址[db:副标题]-创业网站](/Data/Attachment/day_201125/202011251013567704.png)
![V9-起始网址数据库导入功能[db:副标题]-创业网站](/Data/Attachment/day_200325/202003251344386437.png)
![winSock重置方法[db:副标题]-创业网站](http://faq.locoy.com/Data/Attachment/day_201109/202011090946485906.png)
![V9-任意格式文件下载功能[db:副标题]-创业网站](/Data/Attachment/day_200728/202007280843544651.png)
![软件启动报错:由于未经处理的异常,进程终止,System.Security.Cryptography.MD5Cng[db:副标题]-创业网站](/Data/Attachment/day_230420/202304201116549236.png)
![火车采集器oss上传使用方法以及注意事项[db:副标题]-创业网站](/Data/Attachment/day_210813/202108131454153051.png)
![人工智能-AI对话(HuoAiChat)的使用方法[db:副标题]-创业网站](/Data/Attachment/day_230809/202308091500353674.png)
![关联区域功能介绍[db:副标题]-创业网站](/Data/Attachment/day_210629/202106291027105826.png)
![火车采集器V9版工具功能之中文分词[db:副标题]-创业网站](/Data/Attachment/day_200810/202008101404456730.jpg)
暂无评论内容