HTML 解析之 BeautifulSoup

作者：时间：2024-06-26 来源：嵌入式小小刘

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

在网页数据采集、信息提取等应用场景中，对HTML文档进行解析是一项至关重要的任务。BeautifulSoup是 Python 中用于解析HTML和XML文档的强大库，提供了方便的API和丰富的功能，可帮助开发者轻松地从网页中提取所需的数据。本文将介绍BeautifulSoup的基本用法、常见功能和实际应用，帮助读者深入了解如何利用BeautifulSoup进行HTML解析，从而提高数据处理和信息提取的效率和准确性。

本文引用地址：//m.amcfsurvey.com/article/202406/460383.htm

一、基本用法

1.1 安装和导入

要使用 BeautifulSoup 库，首先需要安装该库。可以使用 pip 工具进行安装：

pip install beautifulsoup4

安装完成后，可以通过以下方式导入 BeautifulSoup：

from bs4 import BeautifulSoup

1.2 创建 BeautifulSoup 对象

通过将HTML文档传递给 BeautifulSoup 构造函数，即可创建一个 BeautifulSoup 对象，用于后续的解析和操作：

html_doc = """示例网页
示例页面内容
这是一个示例网页。
soup = BeautifulSoup(html_doc, 'html.parser')

二、常见功能

2.1 标签选择器

BeautifulSoup 支持通过标签选择器来定位HTML文档中的标签，从而提取所需信息。以下是标签选择器的常见用法：

# 选择第一个 title 标签

title = soup.title

# 选择所有的 p 标签

paragraphs = soup.find_all('p')

2.2 数据提取

通过 BeautifulSoup，可以方便地提取标签的文本内容、属性信息等：

# 提取标签文本内容

title_text = title.get_text()

# 提取标签属性

p_class = paragraphs[0]['class']

2.3 CSS 选择器

除了标签选择器外，BeautifulSoup 还支持类似 CSS 选择器的语法，用于定位HTML文档中的元素：

# 通过 CSS 选择器选择标签

content = soup.select('.content')

# 通过 CSS 选择器选择子标签

title_b = soup.select('p.title b')

2.4 数据修改

除了提取数据外，BeautifulSoup 也支持对HTML文档进行修改和操作，如新增、删除标签等：

# 新增一个 p 标签

new_paragraph = soup.new_tag('p')

new_paragraph.string = '新增的段落'

soup.body.append(new_paragraph)

# 删除指定的标签

title_b.extract()

新闻中心

HTML 解析之 BeautifulSoup

评论

相关推荐

技术专区