一、基于统计的中文网页正文抽取的研究
摘 要:信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。
来源网址:
二、基于标签密度判定
译者导读:这篇文章主要介绍了从不同类型的HTML文件中抽取出真正有用的正文内容的一种有广泛适应性的方法。其功能类似于CSDN近期推出的“剪影”,能够去除页眉、页脚和侧边栏的无关内容,非常实用。其方法简单有效而又出乎意料,看完后难免大呼原来还可以这样!行文简明易懂,虽然应用了人工神经网络这样的算法,但因为FANN良好的封装性,并不要求读者需要懂得ANN。全文示例以Python代码写成,可读性更佳,具有科普气息,值得一读。
每个人手中都可能有一大堆讨论不同话题的HTML文档。但你真正感兴趣的内容可能隐藏于广告、布局表格或格式标记以及无数链接当中。甚至更糟的是,你希望那些来自菜单、页眉和页脚的文本能够被过滤掉。如果你不想为每种类型的HTML文件分别编写复杂的抽取程序的话,我这里有一个解决方案。
本文讲述如何编写与从大量HTML代码中获取正文内容的简单脚本,这一方法无需知道HTML文件的结构和使用的标签。它能够工作于含有文本内容的所有新闻文章和博客页面……
你想知道统计学和机器学习在挖掘文本方面能够让你省时省力的原因吗?
答案极其简单:使用文本和HTML代码的密度来决定一行文件是否应该输出。(这听起来有点离奇,但它的确有用!)基本的处理工作如下:
一、解析HTML代码并记下处理的字节数。
二、以行或段的形式保存解析输出的文本。
三、统计每一行文本相应的HTML代码的字节数
四、通过计算文本相对于字节数的比率来获取文本密度
五、最后用神经网络来决定这一行是不是正文的一部分。
仅仅通过判断行密度是否高于一个固定的阈值(或者就使用平均值)你就可以获得非常好的结果。但你也可以使用机器学习(这易于实现,简直不值一提)来减少这个系统出现的错误。
三、基于数据挖掘思想的网页正文抽取方法的研究
提出了一种依靠数据挖掘思想,从中文新闻类网页中抽取正文内容的方法。该方法将网页源代码进行线性化重构,然后利用重构后的代码进行网页噪声的初步去除,再经过文本分类、聚类得到网页正文的脉络段落,最后通过吸收伪噪声段落生成网页正文。该方法克服了传统的网页内容抽取方法需要为网页结构建树的缺点,具有简单、快速、准确的特点,试验表明该方法的抽取准确率可以达到99%以上。
四、基于视觉网页块分析技术的正文抽取
基于视觉的正文抽取和网页块分析是完全模拟IE浏览器的显示方式,对网页进行解析。系统根据人类视觉原理,把网页解析处理的结果,进行分块。然后根据用户需求,提取用户需要的提取相关网页块的内容。
比如在竞争情报系统和自动新闻已经采编发系统中,正文的提取。提取:标题、正文、时间等信息。
评:类似根据模板定义去提取网页正文
继续收集中
当然还有很多如通过正则表达式,或剔除html标签等等方式提取正文,但个人认为通用效果不理想。