使用API智能提取网页上的文章正文：url2io

Want create site? Find Free WordPress Themes and plugins.

对于互联网上纷繁错杂的信息，“取其精华，去其糟粕”已成为我们处理信息的准则。同样的道理，单是一个网页，其元素也错综复杂。对于网页上的文章，倘若需要抓取而递交程序或脚本处理，大多数情况下——比如编写一个抓取任意博客文章制成电子书的程序——我们只需要它的正文部分。但从层层叠叠的HTML骨架中提取出最核心的部分，岂乃易事？

网页中的元素错综复杂，根本没法空手取正文

自然，人们早就有这个需求了。众多前辈们也曾八仙过海，用各种方式解决这个问题。比如一位博主是这么写的：

现在有这么几种思路：

基于标签用途的正文提取算法（比如title或h1,h2标签一般用作标题，p一般表示正文段落，根据标签的含义去提取正文）

基于标签密度判定（这个简单，说白了就是字符统计，正文部分html标签的密度比较低，确定一个阈值，按照标签密度提取正文部分）

基于数据挖掘思想的网页正文抽取方法（这里会涉及到统计学和概率论的一些知识，在高深点就成了机器学习了，没有深入研究）

基于视觉网页块分析技术的正文抽取（CV这种高端大气上档次的东西，岂是我等这么容易就能研究明白的。虽然实现上复杂，但就提取效果而言，这种方法提取的精度还是不错的）

前2中方法还是比较容易实现的，主要是处理简单，先前我把标签密度的提取算法实现了，但实际用起来错误率还是蛮高的；后2种方法在实现上就略复杂了，从算法效率上讲应该也高不了哪去。

我们需要的是一种简单易实现的，既能保证处理速度，提取的准确率也不错的算法。于是结合前两种算法，研究网页html页面结构，有了一种比较好的处理思路，权且叫做基于文本密度的正文提取算法吧。后来从网上找了一下类似的算法，发现也有使用类似的处理方法来处理正文提取的，不过还是有些不同。

原文：https://www.cnblogs.com/jasondan/p/3497757.html ，感兴趣的朋友可以去学习一个

但作为普通开发者的我们，有没有什么办法能够在最短的时间内，较方便、较精确地实现这个需求呢？好在url2io这个api为我们提供了这项服务：