今天给各位分享网页信息抽取的知识,其中也会对随机抽取网页进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
1 基于自然语言的Web 信息抽取
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与
计算机之间用自然语言进行有效通信的各种理论和方法。基于自然语言处理的方法在一定程
度上借鉴了自然语言处理技术,利用子句结构、短语和子句之间的关系,建立基于语法和语
义的抽取规则来实现信息抽取。目前采用这种原理的典型系统有RAPIER[3], WHISK [2]。下
面介绍比较有代表性的WHISK 系统。
WHISK 系统既适用于结构化、半结构化的文本也适用于自由文本。该系统并不需要提
前进行语法分析,它的规则不仅由文本中的一个短语或一系列与某领域相关的短语学习而得
到,还可以由这些短语的约束学习得到。为了尽可能加入人的参与,该系统同时学习和标记
训练数据,而不是随机取实例进行手工标记。系统使用语法分析器和语义类(如人名、机构
名)分析器,分析出用户标记信息的语法成分和对应的语义类,生成基于语法标记和语义类
标记的抽取规则,实现信息抽取。
这种方法的缺点是:没有很好的利用HTML 文档的层次结构;需要大量的人为参与的
工作,很难实现自动的抽取;只支持记录型的语义模式结构,不支持复杂对象的抽取。所以
此方法适用范围较窄。
2 基于HTML 文档结构的Web 信息抽取
这类Web 信息抽取技术的特点是依赖于HTML 文档的内部结构特征。在信息抽取之前,
将HTML 文档解析成能够体现该文档标签层次关系的语法树,通过自动或者半自动的方式
产生抽取规则,将信息抽取转化为对语法树的操作实现信息抽取。采用该类介绍的典型系统
有LIXTO[5]、W4F[6]和DataRover[4]等。
DataRover 利用启发规则发现分类片段中的结构规律。然后利用这些规律将在线目录转
换到数据库中的分类产品。该系统使用了一个页面分割算法将Web 页解析的DOM(文档对
象模型)树作为输入通过该算法找到其中的逻辑段。该系统的不足之处在于:这个方法依赖
于HTML 页解析的DOM树,由于大部分的HTML 页是非良好结构的,所以解析产生的DOM
树也不完全正确;另外,此系统只适用于那些包含明确分类的领域,使用范围比较窄。
LIXTO 可以生成包装器来将HTML 页转换成XML[13](可扩展标识语言)文档。允许用
户以可视化、交互式的方式对样本页面中的信息进行标记,系统通过记录用户标记的信息生
成信息抽取规则,实现对相似结构网页的信息抽取。它的不足之处是它的抽取规则使用基于
Datalog 的Elog 语言描述的,实现和优化校困难,另外抽取规则中抽取信息的描述不够丰富,
不支持图像信息和文献信息的处理。
在互联网络的时代,信息如同大海般没有边际。甚至我们获取信息的方法已经发生改变:从传统的翻书查字典,继而变成通过搜索引擎进行检索。我们从信息匮乏的时代一下子走到了信息极大丰富今天。
在今天,困扰我们的问题不是信息太少,而是太多,多得让你无从分辨,无从选择。因此,提供一个能够自动在互联网上抓取数据,并自动分拣、分析的工具有非常重要的意义。
我们通过传统的搜索引擎所获得的信息,通常是通过网页的形式所展现的,这样的信息人工阅读起来自然亲切,但计算机却很难进行加工和再利用。而且检索到的信息量太大,我们很难在大量的检索结果中抽取出我们最需要的信息。采用自动识别关键词技术,将你需要的信息从海量的信息中筛选出来。就是数据抓取
正则表达式可以有多行匹配模式的,具体要看你用什么语言?或者可以先执行文本替换,替换掉换行符,然后再执行正则表达式。
关于html网页源码的字符编码(charset)格式(gb2312,gbk,utf-8,iso8859-1等)的解释
另外,关于网站抓取方面的,这里面,基本上有你想要的所有的内容:
如何用python,c#等语言去实现抓取静态网页
模拟登陆网站
网页信息抽取的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于随机抽取网页、网页信息抽取的信息别忘了在本站进行查找喔。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件至举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签: #网页信息抽取
相关文章