标签：爬虫

在postman 中测试接口的一些骚操作

postman以及基本api请求介绍对于接口来说我们一般使用Postman的Web和桌面客户端浏览和测试接口API，并使用Postman的CLI直接从命令行执行集合。一般来说，基本上所有的接口都是需要权限的，尤其是前后端分离的接口，请求没有session会……继续阅读 »

破玉 6年前 (2020-06-17) 2070浏览 0评论 0个赞

技术宅

python 爬虫处理asp中的VIEWSTATE与EVENTVALIDATION

最近在处理一个aspx页面遇到一点小麻烦，页面中有几个参数不好处理，因为是hidden域，所以无法直接赋值进行提交。 ViewState的原理 1.浏览器请求Default.aspx页面 2.在服务器端发现创建的ViewState 这个时候会自动创建一个名字叫做__VIEWSTATE(双下滑线全部是大写) 的隐藏域其隐藏域的值经过base64加密以后……继续阅读 »

破玉 9年前 (2017-05-22) 7675浏览 1评论 4个赞

人丑多读书

python爬虫获取搜狐新闻

本次我们来分析搜狐新闻来抓取一些文章来作为我们以后的数据，开发过程中，我们需要用到requests库来处理我们的HTTP请求，Beautifulsoup库来处理我们的HTML文档。由于我们只是获取一部分资讯，所以我们不准备使用队列和多线程来获取所有的内容。只是简单的对文章内容做一些处理。获取部分文章的链接我们针对搜狐新闻的要闻部分……继续阅读 »

破玉 9年前 (2017-04-16) 2379浏览 0评论 0个赞

技术宅

Python 爬虫入门篇（二）–爬呀爬文章

寻找目标由于刚刚接触目标，我们肯定要找一个好爬的资讯网站啊，这样爬成功了我们才会有点成就感，以鼓励自己继续学习。此篇文章中，我们以金融之家这个资讯网站为例来爬取文章爬取之前的工作分析网站内容，进行抓取我们借助于chrome浏览器审查元素的功能，首先对网站进行分析借助于审查元素，我们就可以获取这个元素对应的html标签代码，我们要获取这个元素中的……继续阅读 »

破玉 10年前 (2017-03-02) 2292浏览 0评论 0个赞

技术宅

Python 爬虫入门篇（一）–初见爬虫

爬虫踪影每时每刻，搜索引擎和网站都在采集大量的信息。而他们采用信息的程序就被叫做“爬虫”，这个名字十分形象，程序就像一个个小虫子，采集完数据进行处理。一般都是先“爬”到对应的网页上，在把需要的信息“铲”下来。而作为一个站长，掌握爬虫技术，就可以十分方便的管理自己网站的内容，或者是使自己更加安全的管理自己的网站。创建爬虫 ……继续阅读 »

破玉 10年前 (2017-02-22) 2381浏览 0评论 0个赞