下载站

展开
精品推荐
Beautiful Soup

Beautiful Soup

源码相关大小:629.38MB语言: / 类别:编程书集系统: / WinAll, Win7 提供:
应用介绍

BeautifulSoup是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parsetree)。它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。

BeautifulSoup介绍:

1.BeautifulSoup提供了一些简单的方法和Python术语,用于检索和修改语法树:一个用于解析文档并提取相关信息的工具包。这样你写一个应用不需要写很多代码。2.BeautifulSoup自动将输入文档转换为Unicode编码,并将输出文档转化为UTF-8编码。你不需要考虑编码,除非输入文档没有指出其编码并且BeautifulSoup无法自动检测到,这时你需要指出原来的编码方式。3.BeautifulSoup位于一些流行的Python解析器比如lxml和html5lib的上层,这允许你使用不同的解析策略或者牺牲速度来换取灵活性。

如何遍历树?

使用find_all函数

find_all(name,?attrs,?recursive,?text,?limit,?**kwargs)

举例说明:

printsoup.find_all('title')printsoup.find_all('p','title')printsoup.find_all('a')printsoup.find_all(id="link2-asd-gz")printsoup.find_all(id=True)

返回值为:

[<titleTheDormouse'sstory</title][<pclass="title-asd-gz"<bTheDormouse'sstory</b</p][<aclass="sister-asd-gz"href="http://example.com/elsie"id="link1-asd-gz"Elsie</a,<aclass="sister-asd-gz"href="http://example.com/lacie"id="link2-asd-gz"Lacie</a,<aclass="sister-asd-gz"href="http://example.com/tillie"id="link3-asd-gz"Tillie</a][<aclass="sister-asd-gz"href="http://example.com/lacie"id="link2-asd-gz"Lacie</a][<aclass="sister-asd-gz"href="http://example.com/elsie"id="link1-asd-gz"Elsie</a,<aclass="sister-asd-gz"href="http://example.com/lacie"id="link2-asd-gz"Lacie</a,<aclass="sister-asd-gz"href="http://example.com/tillie"id="link3-asd-gz"Tillie</a]

使用方法:

1.下载完成之后需要解压缩,假设放到D:/python下。2.运行cmd,切换到D:/python/beautifulsoup4-4.3.2/目录下(根据自己解压缩后的目录和下载的版本号修改),cd/dD:/python//beautifulsoup4-4.3.23.运行命令:setup.pybuildsetup.pyinstall4.在IDE下frombs4importBeautifulSoup,没有报错说明安装成功。

Tags:网页解析.

应用推荐查看更多
热门下载查看更多
精选应用
点击查看更多
专题合集查看更多
热门专题查看更多
友情链接0投诉联系:ichaoinc@gmail.com