正在查看: 网页正文

秀操作

使用API智能提取网页上的文章正文:url2io

作者: 1

对于互联网上纷繁错杂的信息,“取其精华,去其糟粕”已成为我们处理信息的准则。同样的道理,单是一个网页,其元素也错综复杂。对于网页上的文章,倘若需要抓取而递交程序或脚本处理,大多数情况下——比如编写一个抓取任意博客文章制成电子书的程序——我们只需要它的正文部分。但从层层叠叠的HTML骨架中提取出最核心…