当前位置: 首页 > 图灵资讯 > 技术篇> BeautifulSoup解析库select方法实例——获取企业信息

BeautifulSoup解析库select方法实例——获取企业信息

来源:图灵教育
时间:2023-06-11 09:14:24

Requests 基于urllib的Python语言编写,采用Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更方便,可以节省我们大量的工作,完全满足 HTTP 测试需求。Requests 以PEP为主的哲学 20习语是以中心开发的,所以它比urlib更Pythonic。更重要的是,它支持它 Python3 哦!

1、requests简单用法

BeautifulSoup解析库select方法实例——获取企业信息_编程语言

2、HTML库-BeautifulSoup简介

HTML页面是通过使用requests获得的,除了HTML中的HTML标记,例如<title>,<p>外面,还有很多 CSS代码。BeautifulSoup库可用于分析HTML,BeautifulSoup对象的Select方法可用于筛选css标记的内容。获取内容的方法如下:①通过标签名搜索②通过类名搜索③通过id名搜索④组合查找。组合搜索即和写作 class 在文件中,标签名与类名和id名的组合原理相同。例如,在搜索p标签时,id等于link1的内容,两者不应分开。⑤属性查找。属性元素也可以添加到搜索中。属性需要用中括号包括。请注意,属性和标签属于同一节点,因此不能在中间添加空间,否则将无法匹配。同一节点不使用空格隔开,同一节点不添加空格。

以下HTML代码为例:

BeautifulSoup解析库select方法实例——获取企业信息_javascript_02

分析代码如下:

BeautifulSoup解析库select方法实例——获取企业信息_编程语言_03

输出结果如下:

BeautifulSoup解析库select方法实例——获取企业信息_python_04

3、实例:爬https://m.tianyancha.com/search企业信息/oc35-s2/p1。

有了以上知识,我们可以利用上述知识获取企业信息,在天眼查网站上有各种企业信息,打开https://m.tianyancha.com/search/oc35-s2,如下图所示

BeautifulSoup解析库select方法实例——获取企业信息_python_05

我们的任务是获取企业信息,具体步骤如下:

1)获取页面信息,用gogle浏览器打开的页面右键打开检查,依次点击 network--doc--headers中的Requestt URL,这个地址是我们想爬页面的地址。

BeautifulSoup解析库select方法实例——获取企业信息_python_06

用res=requests.get(‘https://m.tianyancha.com/search/oc35-s2/ 返回requests对象获取页面的所有内容。

2)分析内容,获取内容 查看源码后,我们发现我们需要找到企业信息。<p class="search_result_container">在容器中,所有内容都可以通过select获得;

BeautifulSoup解析库select方法实例——获取企业信息_编程语言_07

“公司名称”<p class="col-xs-10 search_name pl0 pr0"><a href="/company/3565313" style="word-break:break-all;" class="query_name in-block" οnclick="common.stopPropagation(event)"><span style="color:#2e2e2e;">杭叉集团有限公司</span></a></p>”中,还有其他信息<p class=”title”> 中,如下图

BeautifulSoup解析库select方法实例——获取企业信息_javascript_08

参考代码:

BeautifulSoup解析库select方法实例——获取企业信息_python_09

代码操作结果:

2、免费视频地址: https://pan.baidu.com/s/1jeas8Q 密码: px59