【定稿】企业文档信息管理系统的设计与实现
企业文档信息管理系统的设计与实现软件工程硕士专辑(2012)1企业文档信息管理系统的设计与实现摘要随着计算机技术的不断发展,电子档案管理在企业文档信息管理中越来越得到广泛的应用及普及。本文通过对。。。。。的分析,针对。。。。。的问题,提出了。。。。。。的方法,运用。。。。技术,设计与实现了一种企业文档信息管理系统。论文详细的论述了其研究过程。关键词档案管理,标准,电子管理系统,LUCENEASTUDYONMULTITARGETTRACKINGININTELLIGENTMONITORINGSYSTEMABSTRACTWITHTHEINCREASINGDEVELOPMENTANDAPPLICATIONOFCOMPUTERTECHNOLOGY,FILEMANAGEMENTISPRESENTINGTHETRENDOFINFORMATIONNETWORKING,MANAGEMENTSTANDARDIZATION,SERVICEINDUSTRIALIZATIONTHEWIDEAPPLICATIONOFMULTIMEDIABOOSTSTHEEMERGENCEOFELECTRONICFILEMANAGEMENTSYSTEMTHESYSTEMEMPLOYSADVANCEDTECHNOLOGIESSUCHASELECTRICTECHNICALDOCUMENT,IMAGESDIGITIZATIONANDPAPERLESSOFFICETOACHIEVETHEFUNCTIONOFSTORAGEANDRETRIEVALOFMULTIMEDIASUCHASFILE,SOUND,IMAGEANDDOCUMENT,WHICHPROVIDESEFFECTIVETECHNICALSUPPORTFORFILEMANAGEMENT,APPLICATIONANDPROTECTION,SAVESMEMORYSPACE,ANDPROLONGSTHESAVINGTIMEOFFILEMAINTENANCEKEYWORDSFILEMANAGEMENT,STANDARDIZATION,ELECTRONICMANAGEMENTSYSTEM,LUCENE1引论1目前,国内的应用主要集中在政府(公共服务单位)、电信等行业内,而应用上主要体现在网站内容管理上与文档管理上,处于内容管理的初级阶段。企业内容管理在内容上应该包括收集、格式转换、审核、分类、版本控制、内容测试、发布等处理的过程。而企业文档信息管理系统建设从整合企业信息资源的需求出发,重在提高效率,信息公开,充分利用计算机和现代通讯手段面向企业服务,建立企业内部信息交流的快速通道,共享信息资源,强化部门业务管理,加强各业务部门之间的交流,实现企业信息的快速上传下达,促进协同办公,提高办公效率,为各级部门及业务人员提供辅助办公和决策服务。企业机关的文档主要体现在上下级部门之间的收发文管理,数据量大、安全权限、流转过程控制要求很高。企业每天都会产生、接收、传递和处理大量的纸张文件。传统的文档管理方法需要大量的人员,足够的空间和设备费用,却不能提供可靠的安全保障和满意的工作效率。所以文档的电子化、现代化管理也成为一种大趋势。在提高工作效率和安全性的同时,还需要保证系统的可扩展性和可靠性。2XXXXXXX的技术分析LUCENE是一个全文搜索框架,而不是搜索应用产品。因此它并不像百度或者GOOGLEDESKTOP那样拿来就能用,它只是提供了一套工具让你能实现这些搜索产品。LUCENE能够为文本类型的1作者简介XXX(198010)男,工程硕士,研究方向软件工程。企业文档信息管理系统的设计与实现软件工程硕士专辑(2012)2数据建立索引,所以只要能把要索引的数据格式转化为文本,LUCENE就能对文档进行索引和搜索。比如要对一些HTML文档,PDF文档进行索引的话,首先需要把HTML文档和PDF文档转化成文本格式的,然后将转化后的内容交给LUCENE进行索引,再把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询5。不指定要索引的文档的格式也使LUCENE能够几乎适用于所有的搜索应用程序。搜索应用程序和LUCENE之间的关系,也反映了利用LUCENE构建搜索应用程序的流程(参见图1所示)。图1搜索应用程序和LUCENE之间的关系FIG1RELATIONSBETWEENSEARCHAPPLICATIONPROGRAMANDLUCENE索引是现代搜索引擎的核心,建立索引的过程就是把源数据处理成非常方便查询的索引文件的过程。为什么索引这么重要呢,试想现在要在大量的文档中搜索含有某个关键词的文档,那么如果不建立索引的话就需要把这些文档顺序的读入内存,然后检查这个文章中是不是含有要查找的关键词,这样的话就会耗费非常多的时间,搜索引擎可是在毫秒级的时间内查找出要搜索的结果的。这就是由于建立了索引的原因,可以把索引想象成这样一种数据结构,他能够使你快速的随机访问存储在索引中的关键词,进而找到该关键词所关联的文档。利用LUCENE进行搜索就像建立索引一样也是非常方便的。LUCENE提供了几个基础的类来完成这个过程,它们分别是INDEXSEARCHER,TERM,QUERY,TERMQUERY,HITS。搜索需要用到索引文件,索引文件是以一种倒排表的方式进行组织的,而倒排表的生成要依赖于分词。英文是以词为单位的,词与词之间使用空格进行分隔,所以分词比较简单。中文是以字为单位的,一句话是由连在一起的字组成的。例如英文的句子VIDEOSEARCHENGINE,中文为视频搜索引擎。计算机可以通过空格知道VIDEO是一个词,但是却不能直接知道“视”和“频”的组合是一个词。把中文汉字序列切分成有意义的词就是中文分词。所以视频搜索引擎的分词结果应该为“视频搜索引擎”。正向最大匹配分词和逆向最大匹配分词都是基于词典的分词方法,所谓基于词典的分词是指要事先准备一个分词词典,分词词典中有大量的词,一般词典中词的数量在十几万到几十