很多人都不知道爬虫是什么,主要是做什么的,今天我们一起来看看。我是一个爬虫,每天穿行于互联网之上,爬取我需要的一切。
说起来还要感谢HTTP协议,因为它,全世界的网站和浏览器才能够连接通信,而我也是借助HTTP协议,获取我想要的数据。
我只需要伪装成一个浏览器,向服务器发送HTTP请求,就能拿到网页HTML文件。
接着,我再按照HTML的格式规范,去解析其中的图片、链接、表单等等我关注的信息。
Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2018 群英 版权所有 茂名市群英网络有限公司
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号-36 粤公网安备 44090202000006号 粤工商备P091701000595