如何采集微信公众号历史消息页

网络编程 2024/11/16 佚名

3 2 1

无为清净楼资源网 Design By www.qnjia.com

采集微信文章和采集网站内容一样，都需要从一个列表页开始。而微信文章的列表页就是公众号里的查看历史消息页。现在网络上的其它微信采集器有的是利用搜狗搜索，采集方式虽然简单多了，但是内容不全。所以我们还是要从最标准最全面的公众号历史消息页来采集。

因为微信的限制，我们能复制到的链接是不完整的，在浏览器中无法打开看到内容。所以我们需要通过上一篇文章介绍的方法，使用anyproxy获取到一个完整的微信公众号历史消息页面的链接地址。

http://mp.weixin.qq.com/mp/getmasssendmsg"//img.jbzj.com/file_images/article/201712/201712041037004.jpg" alt="" />

红框部分就是完整的链接地址，将微信公众平台这个域名拼接在前面之后就可以在浏览器中打开了。

然后将页面向下拉，到html内容的结尾部分，我们可以看到一个json的变量就是历史消息的文章列表：

我们将msgList的变量值拷贝出来，用json格式化工具分析一下，我们就可以看到这个json是以下这个结构：

{
  "list": [
    {
      "app_msg_ext_info": {
        "author": "",
        "content": "",
        "content_url": "http://mp.weixin.qq.com/s",
        "copyright_stat": 100,
        "cover": "http://mmbiz.qpic.cn/mmbiz/MofBAcBsJ6X0xGrQ2XK5yQjzwb2eswxkRNBTgLtcqGziaFqwibzvtZAHCDkMeJU1fGZHpjoeibanPJ8rziaq68Akkg/0",
        "digest": "擦亮双眼，远离谣言。",
        "fileid": 505283695,
        "is_multi": 1,
        "multi_app_msg_item_list": [
          {
            "author": "",
            "content": "",
            "content_url": "http://mp.weixin.qq.com/s",
            "copyright_stat": 100,
            "cover": "http://mmbiz.qpic.cn/mmbiz_png/MofBAcBsJ6XyaIn0qEDSSicBUBZbMYHYrhibia89ZnksCsUiaia2TLI1fyqjclibGa1hw3icP6oXeSpaWMjiabaghHl7yw/0",
            "digest": "12月28日，广州亚运城综合体育馆，内附购票入口~",
            "fileid": 0,
            "source_url": "http://wechat.show.wepiao.com/detail/ff764b0731b7465db03b56b998e1f2b8",
            "title": "2017微信公开课Pro版即将召开"
          },
         ...//循环被省略
        ],
        "source_url": "",
        "subtype": 9,
        "title": "谣言热榜 | 十一月朋友圈十大谣言"
      },
      "comm_msg_info": {
        "content": "",
        "datetime": 1480933315,
        "fakeid": "3093134871",
        "id": 1000000010,
        "status": 2,
        "type": 49 //类型为49的时候是图文消息
      }
    },
   ...//循环被省略
  ]
}

简要的分析一下这个json（这里只介绍一些重要的信息，其它的被省略）：

"list": [ //最外层的键名；只出现一次，所有内容都被它包含。
  {//这个大阔号之内是一条多图文或单图文消息，通俗的说就是一天的群发都在这里
    "app_msg_ext_info":{//图文消息的扩展信息
      "content_url": "图文消息的链接地址",
      "cover": "封面图片",
      "digest": "摘要",
      "is_multi": "是否多图文，值为1和0",
      "multi_app_msg_item_list": [//这里面包含的是从第二条开始的图文消息，如果is_multi=0，这里将为空
        {
          "content_url": "图文消息的链接地址",
          "cover": "封面图片",
          "digest": ""摘要"",
          "source_url": "阅读原文的地址",
          "title": "子内容标题"
        },
        ...//循环被省略
      ],
      "source_url": "阅读原文的地址",
      "title": "头条标题"
    },
    "comm_msg_info":{//图文消息的基本信息
      "datetime": '发布时间，值为unix时间戳',
      "type": 49 //类型为49的时候是图文消息
    }
  },
  ...//循环被省略
]

在这里还要提到一点就是如果希望获取到时间更久远一些的历史消息内容，就需要在手机或模拟器中将页面向下拉，当拉到最底下的时候，微信将自动读取下一页的内容。下一页的链接地址和历史消息页的链接地址同样是getmasssendmsg开头的地址。但是内容就是只有json了，没有html了。直接解析json就可以了。

这时可以通过上一篇文章介绍的方法，使用anyproxy将msgList变量值正则匹配出来之后，异步提交到服务器，再从服务器上使用php的json_decode解析json成为数组。然后遍历循环数组。我们就可以得到每一篇文章的标题和链接地址。

如果只需要采集单一公众号的内容，完全可以在每天群发之后，通过anyproxy获取到完整的带有key和pass_ticket的链接地址。然后自己制作一个程序，手动将地址提交给自己的程序。使用例如php这样的语言来正则匹配到msgList，然后解析json。这样就不用修改anyproxy的rule，也不需要制作一个采集队列和跳转页面了。

微信公众号,历史消息页

标签：

微信公众号,历史消息页

无为清净楼资源网 Design By www.qnjia.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

无为清净楼资源网 Design By www.qnjia.com

评论“如何采集微信公众号历史消息页”

暂无评论...

www.qnjia.com 无为清净楼资源网

139,976互联网资源

144,792高清电影

21,817无损音乐

631,128技术资源

最新文章

柏菲·万山红《花开原野1》限量开盘母带ORMC

2024/11/16

柏菲·万山红《花开原野2》限量开盘母带ORMC

2024/11/16

潘安邦《思念精选集全纪录》5CD［WAV+CUE]

2024/11/16

杨千嬅《千嬅新唱金牌金曲》金牌娱乐 [WAV+

2024/11/16

杨钰莹《依然情深》首版[WAV+CUE][1G]

2024/11/16

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/11/16

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

如何采集微信公众号历史消息页

微信公众号,历史消息页

PHP实现基数排序的方法详解

PHP写微信公众号文章页采集方法

评论“如何采集微信公众号历史消息页”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

如何采集微信公众号历史消息页

微信公众号,历史消息页

PHP实现基数排序的方法详解

PHP写微信公众号文章页采集方法

评论“如何采集微信公众号历史消息页”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存