【全套设计】C#新闻网页解析器

收藏

编号:20180119120016253    类型:共享资源    大小:2.41MB    格式:RAR    上传时间:2018-01-19
  
20
关 键 词:
全套 设计 C# 新闻 网页 解析
资源目录:
(温馨提示:点“+”可展开查看一级资源目录。点“-”可关闭资源目录。)
跳过导航链接。
资源描述:

摘 要

网页解析(HTML Parsing)是指去除网页中的格式标签,提取正文内容或目标内容。在搜索引擎开发中网页信息解析与抽取是非常重要的一环, 由于网页结构的复杂性与多变性,目前工程上大多数仍然采用基于模板的网页信息解析技术。这种方法的优点在于实现简单,但是可移植性差、自适应能力不足:需要针对不同网站要制定不同的模板,一旦某网站版式发生细微改变时,就需要重新制作网页模板。本文详细介绍了网页信息解析的各种技术手段,并且针对新闻网页,提出了两种解析方案:一.采用面向对象的设计理念,提出了基于模板的网页信息抽取方案;二.提出了基于网页结构分析的信息抽取方案。文中详细讨论了这两套系统的算法及其实现,并探讨了两套系统各自的有缺点。最后并提出了一些新的设想、展望、以及改进方案。为了提高算法的可应用性,在算法的设计上,尽量采用简单且易行的方法达到理想的效果,避免一些不必要的、高深的复杂的算法方案。系统采用 C#语言在 VS2005 平台实现, 针对国内各大新闻网站如腾讯、 新浪、 凤凰、搜狐等网站进行了测试,都取得了比较令人满意的实验结果。

关键词 网页解析 新闻网页 基于模板 基于结构

目 录

第一章 绪论  ...................................... 1

1.1 研究意义  ..................................... 1

1.1.1 对于一般网络用户  ........................... 1

1.1.2 对于 PDA 用户  ............................  1 

1.1.3 对于搜索引擎系统的开发人员  ...............  1

1.1.4 对于从事自然语言处理相关研究的研究人员  ...  2 

1.1.5 小结  .....................................  3

1.2 国内外研究现状  ............................... 3

1.3 文章使用术语说明  ............................. 4

1.4 本论文组织安排  ............................... 4 

第二章 网页解析入门  .............................. 5

2.1 什么是网络信息抽取  ........................... 5

2.2 网络数据抽取工具简介  ......................... 5

2.3 网络数据抽取技术流程的实现  ................... 6

2.4 什么叫做网页解析及其基本的技术手段  ........... 6

2.4.1 利用 HTML 标记分布规律进行解析  ............. 7

2.4.2 利用 HTML 标记间的关系进行解析  ............. 7

2.4.3 利用页面的视觉特征进行解析  ................. 8

2.4.4 利用 TABLE 标记的布局特性进行解析  .......... 8

2.5 网页规范化  ................................... 9

2.6一个简单的网页正文提取方案  .................... 9

第三章 新闻网页一般结构  .......................... 13

3.1 新闻网页分两类  ............................... 13

3.2 索引页面结构  ................................. 13

北京邮电大学本科毕业设计(论文)II

3.3 内容页面结构  ................................. 15

第四章 基于模板的网页解析系统设计  ..............  16 

4.1 什么是基于模板的解析方案  ...................  17 

4.2 正则表达式和 HTML Parser 库简介  .............. 17

4.2.1 正则表达式简介  ...........................  17 

4.2.2 Winista.HTMLParser dll 简介  ..............  18 

4.3 系统最终实现目标  ...........................  19 

4.4 采用面向对象的编程思想  .....................  20 

4.5 系统工作模式  ...............................  20 

4.6 腾讯新闻解析模板制作  ......................... 21

4.6.1 索引页面正文解析模板制作 ...................  21 

4.6.2 内容页正文解析模板制作  ..................... 25

4.6.3 URL 构建  ................................... 28 

4.6.4 腾讯网提取结果显示  ......................... 28 

4.6.5 小结  .....................................  29

4.7 凤凰新闻网解析模板制作  ....................... 30

4.7.1 索引页面正文解析模板制作 ...................  30 

4.7.2 内容页正文解析模板制作  ...................  32 

4.7.3 URL 构建  .................................  32 

4.7.4 凤凰网提取结果显示  .......................  32

4.7.5 小结  .....................................  33

4.8 水木清华新闻版模板制作  ....................... 33

4.8.1 水木清华新闻版提取结果显示  ................. 34

4.9 模板方法小结  ................................. 35

第五章 基于结构分析的网页解析系统设计  .............37

5.1 系统最终实现目标  ............................. 37

5.2 有关此系统构建的一些细节问题   ................ 37

5.3 索引页通用模板制作  ........................... 39

5.3.1 索引页源码格式调研  ......................... 39 

5.3.2 算法设计  .................................. 39

5.3.3 索引页正文提取结果  .......................... 40

5.4 内容页通用制作  ................................ 41

北京邮电大学本科毕业设计(论文)III

5.4.1 内容页源码格式调研  .........................  41 

5.4.2 算法设计  ...................................  41

5.4.3 内容页正文提取结果  .........................  42

5.5 基于结构的正文提取算法小结  ..................... 42

第六章 总结与展望  .................................. 46

参考文献  ........................................... 48

致 谢  .............................................. 49

附 录  .............................................. 50


展开阅读全文
  大分享文库-在线教育资源分享平台 所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:【全套设计】C#新闻网页解析器
链接地址:http://www.west960.com/p-266548.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2008-2018 大分享文库网 版权所有
经营许可证编号:豫ICP备11013292号-2

客服QQ:1965775022

收起
展开