什么是网页抓取:
简单来说,网络抓取、网络收获或网络数据提取是从网站收集大数据(非结构化)的自动化过程。用户可以根据需要提取特定站点上的所有数据或特定数据。收集的数据可以以结构化格式存储以供进一步分析。

网页抓取涉及的步骤:
- 找到您要抓取的网页的 URL
- 通过检查选择特定元素
- 编写代码获取被选元素的内容
- 以需要的格式存储数据
就这么简单!
用于网络抓取的流行库/工具是:
- Selenium – 用于测试 Web 应用程序的框架
- BeautifulSoup – 用于从 HTML、XML 和其他标记语言中获取数据的 Python 库
- Pandas – 用于数据操作和分析的 Python 库
什么是Beautiful Soup?
Beautiful Soup 是一个纯 Python 库,用于从网站中提取结构化数据。它允许您解析来自 HTML 和 XML 文件的数据。它充当辅助模块,并以与使用其他可用开发人员工具以网页交互的方式与 HTML 交互。
.png)

%20(2).jpg)
.png)

