[040] 微信大众帐号开发教程第16篇-应用实例之历史上的今天

[040] 微信公众帐号开发教程第16篇-应用实例之历史上的今天

内容概要

本篇文章主要讲解如何在微信公众帐号上实现“历史上的今天”功能。这个例子本身并不复杂，但希望通过对它的学习，读者能够对正则表达式有一个新的认识，能够学会运用现有的网络资源丰富自己的公众账号。

何谓历史上的今天

回顾历史的长河，历史是生活的一面镜子；以史为鉴，可以知兴衰；历史上的每一天，都是喜忧参半；可以了解历史的这一天发生的事件，借古可以鉴今，历史是不能忘记的。查看历史上每天发生的重大事情，增长知识，开拓眼界，提高人文素养。

寻找接口（数据源）

要实现查询“历史上的今天”，首先我们要找到相关数据源。笔者经过搜索发现，网络上几乎没有现成的“历史上的今天”API可以使用，所以我们只能通过爬取、解析网页源代码的方式得到我们需要的数据。笔者发现网站http://www.rijiben.com/上包含“历史上的今天”功能，就用它做数据源了。

开发步骤

为了便于读者理解，我们需要清楚该应用实例的开发步骤，主要如下：

1）发起HTTP GET请求，获取网页源代码。

2）运用正则表达式从网页源代码中抽取我们需要的数据。

3）对抽取得到的数据进行加工（使内容呈现更加美观）。

4）将以上三步进行封装，供外部调用。

5）在公众账号后台调用封装好的“历史上的今天”查询方法。

代码实现

笔者将上述步骤1）、2）、3）中的代码实现封装成了TodayInHistoryService类，并对外提供了getTodayInHistory()方法来获取“历史上的今天”。实现代码如下：


从上面的源代码截图中可以看到，我们需要的数据被包含在&lt;div class="listren"&gt;标签内，这样就不难理解为什么正则表达式要这样写：
(.*)(&lt;div class=\"listren\"&gt;)(.*?)(&lt;/div&gt;)(.*)
我们使用括号()将正则表达式规则分成了5组，下面是这些分组的说明：
第1组：(.*)表示网页源代码中&lt;div class="listren"&gt;标签之前还有任意多个字符。
第2组：(&lt;div class=\"listren\"&gt;)中的反斜杠表示转义，所以该规则就是用于匹配&lt;div class="listren"&gt;。
第3组：(.*?)表示在标签&lt;div class="listren"&gt;和&lt;/div&gt;之间的所有内容，这才是我们真正需要的数据所在。
第4组：(&lt;/div&gt;)就是用于匹配&lt;div class="listren"&gt;的结束标签。
第5组：(.*)表示在&lt;/div&gt;标签之后还有任意多的字符。
掌握了正则表达式规则的含义，就不难理解为什么在extract()方法中全都是在使用m.group(3)，因为m.group(3)就表示匹配到数据的第3个分组。m.group(3)的内容如下：


说明：与其说这是一篇关于公众帐号应用开发的教程，倒不如说这是一篇关于网页数据爬取的教程。本文旨在为读者开辟思路，介绍一种数据获取方式。当然，这种做法也是有弊端的，当网页改版源代码结构发生变化时，就需要重新改写数据抽取代码。没有做不到，只有想不到！

如果觉得文章对你有所帮助，请通过留言或关注微信公众帐号xiaoqrobot来支持柳峰！
转帖请注明本文出自柳峰的博客（http://blog.csdn.net/lyq8479），请尊重他人的辛勤劳动成果，谢谢！

2楼xuhongyupai24分钟前
今天在群上看见出来新的了，立马就来看看！果断顶一个
1楼chenyaqiang1小时前
大爱啊。老师辛苦了。让我受益匪浅啊

[040] 微信大众帐号开发教程第16篇-应

热点推荐