使用由 Python 编写的 lxml 实现高性能 XML 解析
简介:?lxml 是一种使用 Python 编写的库,可以迅速、灵活地处理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT),并且实现了常见的 ElementTree API。本文主要关注 lxml 的易用性,以及它在处理大型 XML 数据时提供的高性能配置文件。
?
?
常用缩写词参考资料学习
- 您可以参阅本文在 developerWorks 全球网站上的?英文原文。
- Help getting lxml to work reliably on MacOS-X:获得有关在 MacOS X 上安装 lxml 的帮助。
- ElementTree Overview:获得有关 ElementTree API 和 cElementTree 的信息。
- 面向 Python 程序员的 Amazon EC2 基础知识:了解这种虚拟机如何托管来自 Amazon 的服务。
- Incremental Parsing:在这一节 ElementTree 文档中,了解有关?清单 6?中使用的迭代解析的内容。
- XML 技术库:从 developerWorks XML 专区获得广泛的技术文章和技巧、教程、标准和 IBM 红皮书。?
- developerWorks 技术活动和网络广播:随时关注技术的最新进展。
- developerWorks podcasts:收听针对软件开发人员的有趣访谈和讨论。?
- 技术书店:浏览关于这些主题和其他技术主题的图书。
- developerWorks Podcasts:收听针对软件开发人员的有趣访谈和讨论。
获得产品和技术
- lxml:Lxml 的文档几乎涵盖了所有内容。阅读 FAQ 和基准测试小节。
- Google U.S. 版权更新数据:下载并使用 Google 提供的 XML 格式的 U.S. 版权更新数据(371MB,压缩版,426,907 条记录)。
- Open Directory RDF 内容:下载 Open Directory 数据库的 RDF 转储(1.9GB,压缩版,5,354,663 条记录)。
- eXist:查看这个使用 Xquery 的开源数据库管理系统。
- Psyco:了解有关这个 Python 扩展模块的更多信息,它可以显著提高 Python 代码的执行速度。
- Amara:尝试使用这个 Python XML 库,它提供了丰富特性和 Python 风格的 API。Amara 没有提供与 lxml 或 cElementTree 相同的性能特性,但是非常适合大部分 XML 任务。
- IBM 用于产品评估的试用软件:使用可直接从 developerWorks 下载的试用软件构建您的下一个项目,包括来自 DB2?、Lotus?、Rational?、Tivoli? 和 WebSphere? 的应用程序开发工具和中间件产品。
讨论
- XML 专区讨论论坛:参与和 XML 有关的讨论。
- developerWorks XML 专区:分享您的观点:阅读本文后,请将您的评论和观点提交到本论坛。XML 专区编辑负责该论坛,欢迎您的加入。
- developerWorks blogs:访问这些 blog 并加入?developerWorks 社区。
参考地址:http://www.ibm.com/developerworks/cn/xml/x-hiperfparse/index.html?ca=drs-cn-0105
- XML 专区讨论论坛:参与和 XML 有关的讨论。
- lxml:Lxml 的文档几乎涵盖了所有内容。阅读 FAQ 和基准测试小节。