博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
BeautifulSoup使用
阅读量:5112 次
发布时间:2019-06-13

本文共 1220 字,大约阅读时间需要 4 分钟。

request能取到网页上面的数据,但是这些是属于结构化的数据,我们不能直接使用,需要将这些数据进行转化,从而方便使用

BeautifulSoup能将标签移除掉,从而获得网页上的数据以及内容

1、将特定标签的内容取出来

单个标签

 

from bs4 import BeautifulSoup html_sample = '\\ \

HelloWorld

\This is link1\ This is link2\\' soup= BeautifulSoup(html_sample,'html.parser') header=soup.select('h1') print(header[0].text) 多个相同的标签
from bs4 import BeautifulSoup html_sample = '\\ \

HelloWorld

\This is link1\ This is link2\\' soup= BeautifulSoup(html_sample,'html.parser') header=soup.select('a') for alink in header: print(alink.text)
2、取出含有特定css属性的元素 id前面需要加#
from bs4 import BeautifulSoup html_sample = '\\ \

HelloWorld

\This is link1\ This is link2\\' soup= BeautifulSoup(html_sample,'html.parser') header=soup.select('#title') print(header)
class前面加.
from bs4 import BeautifulSoup html_sample = '\\ \

HelloWorld

\This is link1\ This is link2\\' soup= BeautifulSoup(html_sample,'html.parser') header=soup.select('.link') for alink in header: print(alink.text)
3、取得a标签里面链接的内容
from bs4 import BeautifulSoup html_sample = '\\ \

HelloWorld

\This is link1\ This is link2\\' soup= BeautifulSoup(html_sample,'html.parser') header=soup.select('a') for alink in header: print(alink['href'])
 

转载于:https://www.cnblogs.com/zlj1992/p/6106653.html

你可能感兴趣的文章
Oracle中的rownum不能使用大于>的问题
查看>>
cassandra vs mongo (1)存储引擎
查看>>
Visual Studio基于CMake配置opencv1.0.0、opencv2.2
查看>>
遍历Map对象
查看>>
MySQL索引背后的数据结构及算法原理
查看>>
#Leetcode# 209. Minimum Size Subarray Sum
查看>>
SDN第四次作业
查看>>
DM8168 DVRRDK软件框架研究
查看>>
django迁移数据库错误
查看>>
yii 跳转页面
查看>>
洛谷 1449——后缀表达式(线性数据结构)
查看>>
Data truncation: Out of range value for column 'Quality' at row 1
查看>>
Dirichlet分布深入理解
查看>>
(转)Android之发送短信的两种方式
查看>>
字符串处理
查看>>
HtmlUnitDriver 网页内容动态抓取
查看>>
ad logon hour
查看>>
获得进程可执行文件的路径: GetModuleFileNameEx, GetProcessImageFileName, QueryFullProcessImageName...
查看>>
证件照(1寸2寸)拍摄处理知识汇总
查看>>
罗马数字与阿拉伯数字转换
查看>>