欢迎来到大分享文库-在线教育资源分享平台 ! | 帮助中心 大分享文库-在线教育资源分享平台
大分享文库-在线教育资源分享平台
  • 简介: 摘要 随着网络信息的日益膨胀,信息泛滥的状况日趋严重,而作为人们获取信息的主要手段的搜索引擎却面临着诸多新问题,如何快速地帮助用户获取特定的知识、如何引导用户并推送给用户相关信息,已然成为各个搜索引擎面临的日趋紧迫的任务。检索结果聚类能够最大限度地解决搜索引擎这一问题,提供用户引导、数据分布,其应用不仅在展现形式上,对于搜索引擎相关性排序、相关搜索等问题上均有较大帮助,对于文本数据检索、数字化图书馆管理、实体关系挖掘等领域也有非常广阔的应用前景。 对于检索结果进行挖掘,生成恰当的引导性标签,辅助用户快速浏览网页内容,是检索结果聚类的主要目标。传统的聚类方法,一方面时间复杂度较高不能快
    下载积分: 8
    上传时间:2018-12-20
    页数: 55
    10人已阅读
    ( 4 星级)
  • 简介:哈尔滨工业大学工学硕士学位论文 摘 要 近年来,微博服务作为新型的互联网应用,受到了越来越多用户的关注。在自然语言处理、信息检索和社会计算等相关领域,针对微博的研究工作也在逐渐开展和积累中。微博用户标签,作为描述用户兴趣爱好、职业领域特征等的载体,在用户组织和搜索,挖掘用户兴趣、实现微博上的个性化等方面有着重要的作用。 本文着眼于基于微博内容的用户标签自动生成,借助对内容的分析,生成能够体现用户兴趣的标签。 本文通过新浪微博API随机获取了百万级规模的标签相关数据,用于分析用户标签在统计、语义等方面的特征。同时,我们对基于文本的标签源用户的原创、转发、评论和收藏微博的语义相似度和
    下载积分: 8
    上传时间:2018-12-20
    页数: 74
    10人已阅读
    ( 4 星级)
  • 简介:哈尔滨工业大学工学硕士学位论文 I 摘 要 随着互联网的快速发展,互联网信息规模呈指数级增长,同时互联网海量信 息的背后伴随着质量的参差不齐,准确,快速,全面的获取信息变得越来越困难, 强大的信息提取能力变得备受关注,信息海量堆积也对信息抽取技术提 出了新的 机遇与挑战。而随着自然语言处理技术的飞速发展,机器翻译技术在现实生活中 的变得越来越实用,有道翻译, Google 翻译,百度翻译等相关产品已经成为非专 业人士进行外文学习工作的重要工具。 双语语料是机器翻译的基础,是机器翻译中训练、测试、分析机器翻译模型 的重要数据。双语语料的数量与质量直接关系到机器翻译参数的训练结果,同时
    下载积分: 8
    上传时间:2018-12-20
    页数: 77
    13人已阅读
    ( 4 星级)
  • 简介:摘 要 I 摘 要 实体关系是描述实体之间语义关系的重要途径。实体关系抽取 是信息抽取任务 中的 重要 环节,也有着广泛的应用前景。随着 Web2.0 的迅猛发展,人们对实体关 系抽取提出了新的要求,以适应从快速增长的海量互联网文本中迅速准确地获取 对用户有价值的信息。 传统的实体关系抽取需要预先定义关系类型体系,然而定义一个全面的实体关 系类型体系是很困难的。开放式实体关系抽取技术 通过使用关系指示词描述关系 的方法 解决了预先定义关系类型体系的问题,但是在中文上的研究还比较少。 因 此,针对不同的应用场景,本文提出了两种不同的开放式实体关系抽取方法,并 且探索自动构建关系类型体
    下载积分: 8
    上传时间:2018-12-20
    页数: 71
    6人已阅读
    ( 4 星级)
  • 简介:哈尔滨工业大学工学硕士学位论文 摘要 下一代搜索引擎的一个突出特点是个 性化,个性化信息检索是以用户为 中心的信息检索技术,它获取以多种形式表达的用户需 求(包括显式的、隐 式的以及相关用户的需求) ,并综合利用这些用户信 息,提高信息检索系统 的性能。 作为个性化信息检索中的重要研究子 课题,用户兴趣模型研究通过对用 户检索和浏览历史的分析,建立用户短期与长期兴趣模 型,并随着用户信息 和检索领域的变化对用户兴趣模型进行更新。用户兴趣 模型研究面临的主要 问题是,缺乏合理的任务划分和标准评测集,无法对用 户兴趣模型进行公正 的评价。因此,本文通过对个性化检索进行合理的任务 划分,并利用开
    下载积分: 8
    上传时间:2018-12-20
    页数: 56
    7人已阅读
    ( 4 星级)
  • 简介:摘 要 I 摘 要 随着 计算机 与 互联网的 快速 发展, 通过 互联网所产生的数据 规模急剧增 加 , 如何 能够 从 海量数据中 精准 快捷获取 有价值 的信息 已经成为 了 国内外研 究 的 热点 之一。 信息抽取 正 是 在这种背景下产生的 。信息抽取 的主要目的 为 从自然语言 文本 之中 抽取 事实类信息 ,如 指定的实体、关系、时间等,即将 自然语言 文 本中蕴含的 无结构 信息转换成半结构化或结构化的信息。 实体关系抽取为 信 息抽取中的一个子任务 ,其中 传统 实体关系抽取 任务 需要 预先定义 关系类别 体系 , 然后 在 定义好的 关系类别体系 中 根据实体
    下载积分: 8
    上传时间:2018-12-20
    页数: 63
    7人已阅读
    ( 4 星级)
  • 简介:哈尔滨工业大学工学硕士学位论文 摘要 信息抽取任务随着互联网信息爆炸式的增长越来越凸显其重要性,而事件抽取又是信息抽取中至关重要的一个研究点。它旨在将无结构化文本中人们感兴趣的事件以及事件所涉及到的时间、地点、人物等元素准确地抽取出来并以结构化的形式存储下来,以供自动文摘、自动问答、信息检索、舆情监控、话题检测等自然语言处理上层技术的使用和用户方便的查看。 事件抽取一般都需要预先指定事件类型,然后或基于机器学习方法,或基于模式匹配方法识别事件类型和事件元素。并且在以往的研究中,很少有学者在多种不同源的语料下测试方法的鲁棒性。因此,以往的事件抽取系统在领域自适应方面表现欠佳。 本文在总
    下载积分: 8
    上传时间:2018-12-20
    页数: 81
    6人已阅读
    ( 4 星级)
  • 简介:哈尔滨工业大学工学硕士学位论文 - - I 摘要 所谓共指消解就是将对应同一实体的多个表述划分到一个等价类的过程。 共指消解是信息抽取中的一个重要子任务,在自然语言处理和信息检索的各个 领域有着重要的应用。 传统方法将共指消解分割成为两个步骤 1)分类的过程 2)合并的过程。 在本文,我们利用超图 分割巧妙 解决共指消解问题,避免了将共指消解分割成 为两个过程,而是从全局优化的角度,一步解决共指消解。我们利用超图表示 一篇文本,顶点代表表述,超边 多个 代表表述共同具备的特征,共指消解就是 从全局优化的角度,将超图分割成多个独立的子图,每个子图代表一条共指链。 本文重点研究了三部分
    下载积分: 8
    上传时间:2018-12-20
    页数: 63
    8人已阅读
    ( 4 星级)
  • 简介:哈尔滨工业大学工 学 硕士学位论文 - - I 摘 要 随着微博、微信等新媒介的迅速发展,中文短文本信息呈爆发式增长,如 何高效的组织与管理文本 信息,已成为亟需解决的问题。文本主题分类,能够 改善文本信息杂乱的状况, 可以减少 查询时间,提高搜索质量,快速有效地获 取文本信息。文本主题分类 的任务是依据主题分类体系, 判别 待分类文本 所属 分类体系中 的一个或多个类别。 传统基于机器学习的文本分类算法,需要人工 预定义分类类别, 标识 类别 语料,面对大规模文档,人工人本过高,领域移植 难 ,分类性 能 过度 依赖人工 。 本文着眼于构建一套 针对大 规模文档 的 文本主题自动分
    下载积分: 8
    上传时间:2018-12-20
    页数: 69
    11人已阅读
    ( 4 星级)
  • 简介:摘要 - I - 摘要 句法分析 的任务 是根据给定的语法,自动推导出句子的语法结构 。句法 分析性能的提高将对信息检索、信息抽取以及机器翻译等应用产生重要的推 动作用。 在句法分析的研究中,依存语法以其形式简洁、易于标注、便于 应 用 等优点,逐渐受到研究人员的重视。 本文 比较 全面地研究了依存句法分析 中的几项关键技术,包括 统计模型、搜索算法、树库建设等 。 为了深入的理解各种模型、算法在实际中的应用效果, 本文 选择了三个 具有代表性的方法,分别为马金山面向中文的依存分析算法, Nivre 的 基于 转移 的依存分析器 MaltParser 以及 McDonald 的 基于图
    下载积分: 8
    上传时间:2018-12-20
    页数: 57
    8人已阅读
    ( 4 星级)
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2008-2018 大分享文库网 版权所有
经营许可证编号:豫ICP备11013292号-2

客服QQ:1965775022

收起
展开