您现在的位置是:群英 > 开发技术 > Python语言
Python实现网络爬虫的方法操作是什么?
Admin发表于 2022-02-19 18:02:26662 次浏览

    Python实现网络爬虫的方法操作是什么?对于Python实现网络爬虫很多朋友都比较好奇和感兴趣的,对此这篇就给大家分享一下方法,具体的方法步骤及代码如下,感兴趣的朋友可以参考。

    python实现网络爬虫的方法:

    第一步:爬取

    使用request库中的get方法,请求url的网页内容

    编写代码

[root@localhost demo]# touch demo.py
[root@localhost demo]# vim demo.py
#web爬虫学习 -- 分析
#获取页面信息
 
#输入:url
#处理:request库函数获取页面信息,并将网页内容转换成为人能看懂的编码格式
#输出:爬取到的内容
 
import requests
 
def getHTMLText(url):
    try:
        r = requests.get( url, timeout=30 )
        r.raise_for_status()    #如果状态码不是200,产生异常
        r.encoding = 'utf-8'    #字符编码格式改成 utf-8
        return r.text
    except:
        #异常处理
        return " error "
 
url = "http://www.baidu.com"
print( getHTMLText(url) )
[root@localhost demo]# python3 demo.py

    第二步:分析

    使用bs4库中BeautifulSoup类,生成一个对象。find()和find_all()方法可以遍历这个html文件,提取指定信息。

    编写代码

[root@localhost demo]# touch demo1.py
[root@localhost demo]# vim demo1.py
#web爬虫学习 -- 分析
#获取页面信息
 
#输入:url
#处理:request库获取页面信息,并从爬取到的内容中提取关键信息
#输出:打印输出提取到的关键信息
 
import requests
from bs4 import BeautifulSoup
import re
 
def getHTMLText(url):
    try:
        r = requests.get( url, timeout=30 )
        r.raise_for_status()    #如果状态码不是200,产生异常
        r.encoding = 'utf-8'    #字符编码格式改成 utf-8
        return r.text
    except:
        #异常处理
        return " error "
 
def findHTMLText(text):
    soup = BeautifulSoup( text, "html.parser" )    #返回BeautifulSoup对象
    return soup.find_all(string=re.compile( '百度' )) #结合正则表达式,实现字符串片段匹配
 
url = "http://www.baidu.com"
text = getHTMLText(url)        #获取html文本内容
res = findHTMLText(text)    #匹配结果
 
print(res)        #打印输出
[root@localhost demo]# python3 demo1.py

    关于Python实现网络爬虫的内容就介绍到这,上述方法和代码仅供参考。大家想要了解更多Python网络爬虫的内容,可以关注群英网络其它的相关文章。

文本转载自PHP中文网

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。

标签: python网络爬虫
相关信息推荐
2022-07-30 17:23:53 
摘要:css规则的三种类型:1、行内样式表,使用style属性直接把CSS代码添加到HTML的标记中,语法“<标记 style="属性名:值1;"></标记>”。2、内部样式表,把css样式写在“<head>”标签中,并用“<style>”标签去声明。3、外部样式表,将css样式写在一个单独的“.css”文件中,使用link标签或“@import”规则将样式表导入HTML文件中。
2021-11-20 17:46:04 
摘要:这篇文章给大家分享的是几个常用的python函数的用法,包括lambda、filter、map、reduce,小编觉得挺实用的,面试中也很常见,因此分享给大家做个参考,文中示例代码介绍的非常详细,感兴趣的朋友接下来一起跟随小编看看吧。
2022-05-19 17:44:13 
摘要:Go语言是Google公司的。Go语言是Google的Robert Griesemer、Rob Pike及Ken Thompson开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的编程语言。
云活动
推荐内容
热门关键词
热门信息
群英网络助力开启安全的云计算之旅
立即注册,领取新人大礼包
  • 联系我们
  • 24小时售后:4006784567
  • 24小时TEL :0668-2555666
  • 售前咨询TEL:400-678-4567

  • 官方微信

    官方微信
Copyright  ©  QY  Network  Company  Ltd. All  Rights  Reserved. 2003-2019  群英网络  版权所有   茂名市群英网络有限公司
增值电信经营许可证 : B1.B2-20140078   粤ICP备09006778号
免费拨打  400-678-4567
免费拨打  400-678-4567 免费拨打 400-678-4567 或 0668-2555555
微信公众号
返回顶部
返回顶部 返回顶部