V9.11-列表页新增“地址处理”功能[db:副标题]

示例网址,新浪滚动新闻:https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1

点击下一页,抓包可获取真实地址:

        https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1

分析json数据可以得知 url 后面的是内容页网址,设置如下:

          图片[1]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站

        图片[2]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站

此网址采集需要设置头信息 Referer: https://news.sina.com.cn/roll/ 。头信息的获取可以参考此教程:点此跳转>>

图片[3]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站

可以看到采集的网址里有很多 \\ ,导致网址无法访问,而且网址不规则,不易处理。

       图片[4]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站

这种可以使用新增的“地址处理”功能

1. 内容替换/排重

   可以对网址中内容进行替换,且替换完成后,重复的网址会自动去重。

图片[5]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站

图片[6]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站

图片[7]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站

图片[8]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站

2. 纯正则替换

  可以使用正则表达式进行匹配,和内容替换功能类似

3. 字符编码处理

  网址中有需要转码的内容,比如采到的链接里有 & 可以进行解码

         https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1

图片[9]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站

对于网址中有中文需要转码后才能访问的,也可以在这里设置,比如

图片[10]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站

图片[11]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站

但是,只是这样设置我们会发现网址中的 :  /  & ? = 这些也被转码了,导致网址无法访问,所以需要再设置内容替换,把这些字符替换回去。

图片[12]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站

图片[13]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站

图片[14]-V9.11-列表页新增“地址处理”功能[db:副标题]-创业网站

整理不易,请坚持看完,并去执行

你的坚持,是我们坚持更新下去的动力

学习更多项目知识,请关注公众号:品小先Ai

觉得文章有用的话,点个好看,转发朋友圈,多谢!

感谢你的支持:s.mm.yn.cn(品小先-项目发源地)

V9.11-列表页新增“地址处理”功能-创业网站
[db:商品信息]
[db:商品简介]
0
立即赞助
您当前未登录!建议登陆后购买,可保存购买订单
[db:更多详情]
赞助内容
© 版权声明
THE END
喜欢就支持一下吧

你的坚持,是我们坚持更新下去的动力

学习更多项目知识,请关注公众号:品小先Ai

觉得文章有用的话,点个好看,转发朋友圈,多谢!

点赞55 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容