登录
    hello,it's me!

标签:python

技术宅

python 爬虫处理asp中的__VIEWSTATE与__EVENTVALIDATION

python 爬虫处理asp中的__VIEWSTATE与__EVENTVALIDATION
最近在处理一个aspx页面遇到一点小麻烦,页面中有几个参数不好处理,因为是hidden域,所以无法直接赋值进行提交。 ViewState的原理 1.浏览器请求Default.aspx页面 2.在服务器端 发现创建的ViewState 这个时候 会自动创建一个名字叫做__VIEWSTATE(双下滑线 全部是大写) 的隐藏域 其隐藏域的值经过base64加密以后……继续阅读 »

破玉 2年前 (2017-05-22) 1125浏览 0评论 0个赞

人丑多读书

python爬虫获取搜狐新闻

python爬虫获取搜狐新闻
  本次我们来分析搜狐新闻来抓取一些文章来作为我们以后的数据,开发过程中,我们需要用到requests库来处理我们的HTTP请求,Beautifulsoup库来处理我们的HTML文档。由于我们只是获取一部分资讯,所以我们不准备使用队列和多线程来获取所有的内容。只是简单的对文章内容做一些处理。 获取部分文章的链接 我们针对搜狐新闻的要闻部分……继续阅读 »

破玉 2年前 (2017-04-16) 272浏览 0评论 0个赞

技术宅

Python 爬虫入门篇(二)–爬呀爬文章

Python 爬虫入门篇(二)–爬呀爬文章
寻找目标 由于刚刚接触目标,我们肯定要找一个好爬的资讯网站啊,这样爬成功了我们才会有点成就感,以鼓励自己继续学习。此篇文章中,我们以金融之家这个资讯网站为例来爬取文章 爬取之前的工作 分析网站内容,进行抓取 我们借助于chrome浏览器审查元素的功能,首先对网站进行分析 借助于审查元素,我们就可以获取这个元素对应的html标签代码,我们要获取这个元素中的……继续阅读 »

破玉 2年前 (2017-03-02) 265浏览 0评论 0个赞

技术宅

Python爬虫之Requests库

Python爬虫之Requests库
引言      Requests 允许你发送纯天然,植物饲养的 HTTP/1.1 请求,无需手工劳动。你不需要手动为 URL 添加查询字串,也不需要对 POST 数据进行表单编码。Keep-alive 和 HTTP 连接池的功能是 100% 自动化的,一切动力都来自于根植在 Requests 内部的 urllib3。 ……继续阅读 »

破玉 2年前 (2017-02-25) 309浏览 0评论 0个赞

技术宅

Python 爬虫入门篇(一)–初见爬虫

Python 爬虫入门篇(一)–初见爬虫
爬虫踪影   每时每刻,搜索引擎和网站都在采集大量的信息。而他们采用信息的程序就被叫做“爬虫”,这个名字十分形象,程序就像一个个小虫子,采集完数据进行处理。一般都是先“爬”到对应的网页上,在把需要的信息“铲”下来。而作为一个站长,掌握爬虫技术,就可以十分方便的管理自己网站的内容,或者是使自己更加安全的管理自己的网站。 创建爬虫  ……继续阅读 »

破玉 2年前 (2017-02-22) 234浏览 0评论 0个赞

返回顶部