《新书项目搜索引擎申请表.docx》由会员分享,可在线阅读,更多相关《新书项目搜索引擎申请表.docx(12页珍藏版)》请在第一文库网上搜索。
1、附件二:申请编号:项目编号:宁波大学大学生科技创新计划项目申请表项目名称:大数据下新书目录搜索引擎研究与实现项目负责人:叶淑晶负责人类别:因本科生口研究生所在学院:商学院填报时间:2013年12月成果类形式:口自然科学类学术论文口哲学社会科学类社会调查报告和学术论文科技发明制作A类因科技发明制作B类口创业孵化作品填报说明1、填表前,请先仔细阅读宁波大学大学生科研创新计划实施办法(试行);2、项目申请一旦立项,将作为项目计划任务书考核,成为项目中期检查、结题等管理活动的依据文件;3、要如实、准确、认真填写申请表各项内容;4、项目组指导老师不超过2人,项目成员不超过5人。5、登陆网络申请时,需上传
2、申请表和可行性报告两个文件,可行性报告所填各项内容将成为专家评审重要依据,请匿名认真如实填写。6、其他事宜请向宁波大学学生科研管理工作小组办公室咨询。A3.基本情况(科技发明制作)项目名称大数据下新书目录搜索引擎研究与实现作品分类(B)A.机械与控制(包括机械、仪器仪表、自动化控制、工程、交通、建筑等)B.信息技术(包括计算机、电信、通讯、电子等)C.数理(包括数学、物理、地球与空间科学等)D.生命科学(包括生物、农学、药学、医学、健康、卫生、食品等)E.能源化工(包括能源、材料、石油、化学、化工、生态、环保等)负责人姓名叶淑晶性别女民族汉出生日期1994年3月19日学院商学院年级大二专业信息
3、管理与信息系统校内住址本部公寓10号楼607室联系电话666454指导老师姓名性别所属学院职称研究专长张宇萌男商学院副教授智能信息组织与检索技术、电子商务主要成员姓名性别学院年级专业项目分工联系电话叶淑晶女商学院大二信管重点,难点666454施翌女商学院大二信管技术水平696553徐行翔男商学院大二信管预期成果646414鲁一梁男商学院大二信管项目必要性等666584钟俊轩男商学院大二信管优势、劣势688683预期成果A.专著B.论文(集)C.研究报告D.工具书E.禾微发明F.电脑软件G预计完成时间2014年12月1日(研究期限一般为一年)B可行性报告说明:此表中不得出现学院、导师及项目负责人
4、信息。项目名称大数据环境下新书目录搜索引擎研究与实现项目类别科技发明B类必要性申请项目的要性、目1.自上世纪六十年代末诞生至今,互联网发展已经历了多个阶段,互联网技术不断进步,普及程度也不断提高,不断创造出海量的信息,造就了一个信息大爆炸的时代。尤其是在近几年,随着互联网普及速度的加快与移动互联网的飞速发展,互联网上的信息增长速度远远超过之前任何一个时期。事实上,依据美国互联网数据中心的统计研究,至今为止超过90%的互联网数据产生于近几年,并且仍将以年50%的增速不断增长,人类已进入一个“大数据时代”。“大数据”正改变着或即将改变我们生活的方方面面,必将成为新技术、新服务发展的立足点。的及意义
5、2.大数据时代,海量的信息资源使我们能够方便地利用网络搜索到关于一本新书的各类信息,然而这些信息数量繁多,并且分部在不同的网络平台,采用着不同的格式,大大阻碍了搜索者对于这些资源的有效利用和管理,造成信息过载、资源迷航。在这种现状下,研究实现一个能抓取各平台有效信息,为搜索者提供优质、高效信息的新书目录搜索引擎具有极大的必要性。3.在21世纪的今天,我们的社会处于加速的信息化过程中,信息技术的发展、深入也带来了人们需求的提升,高效、集成与个性化的信息服务逐渐成为大众普遍的需求。这一趋势也已影响到图书馆的信息服务上来,对图书馆信息服务的个性化、书目搜索的改进带来巨大压力。数字图书馆的个性化服务,
6、在国外相当普遍,尤其在美国高校,已取得了初步的成效,最具代表性的是北卡罗纳大学图书馆的My1ibraryNCState和康奈尔大学图书馆的My1ibraryCorne110这些系统注重定制化、个性化,对大数据环境下海量的信息资源进行整合,为使用者提供统一、高效的搜索服务。这一趋势自然也已经影响到国内,出现了一批追随者。然而,国内的这类服务仍然存在检索服务不完善,资源整合度不高等诸多问题,缺乏一个能够有效应对大数据所带来挑战的新书目录搜索引擎,来组建一个高效的统一查询平台。目的及意义大数据环境下,信息爆炸带来了海量的信息资源。但面对这些充足的信息资源,如果缺乏有效的信息管理能力,反而将使我们陷入
7、信息过载、信息浪费与资源迷航的困境。因此目前我们缺少的不是充足的互联网数据库资源,而是提取、整合这些海量资源的能力。这一需求也体现在新书信息检索的难题上。目前这类搜索存在缺乏统一平台、信息过载等问题,缺乏效率。研究开发大数据环境下的新书目录搜索引擎,能够有效提高书目信息资源的整合度,提供更为集成、有效的信息与良好的搜索体验。确实的利用信息技术与互联网为广大使用者带来便利。同时,当前社会信息化的趋势使得数字图书馆诞生、发展,也促进了数字图书馆用户服务的个性化导向。及时发现新书出版、新书目信息推送引擎的实现,将为数字图书馆个性化、高效化服务的发展提供保障,便于切实的为当前这一领域存在的诸多问题提供
8、一个高效的解决方案,推进数字图书馆个性化服务的进步、发展。项目的背景、主项目背景:要内容、Internet技术的飞速发展和WEB数据库资源的日益丰富,造就了我们这个信技术水息大爆炸的时代,我们并不缺少信息,我们缺少的是提取、整合这些海量信息的能平及应力。用范围如何让用户能够更加快速简单地查询到自己想要的信息一直以来都是我们所要思考的问题。搜索引擎的产生很好地解决了这一问题。搜索引擎主要指利用网络自动搜索技术软件或人工方式,对Internet(主要是Web)网络资源进行搜集,整理与组织,并提供检索服务的一类信息服务系统。GOOgIe.百度.中国搜索等大型搜索引擎一直是人们讨论的话题。它们的资源包
9、罗万象,用户可以通过在检索栏中输入检索词来检索几乎任何类型,任何主题的资源。但是由于它们收录范围广,死链接较多,相关度较低等缺点,当人们想要专门查询某一学科或主题时,显然传统的搜索引擎不是一个很好的选择。当综合搜索引擎满足不了广大的用户需求时,个性化趋势成为了搜索引擎的一个未来发展的重要特征和必然趋势之一。如今,针对特定领域的搜索引擎日益增多,比如找工作的搜索,旅游搜索,医药搜索,购物搜索等。我们发现,几乎各行各业的信息都可以细化,我们可以做出更具有专深性,更体现以人为本理念的特定搜索引擎。当用户有明确的信息需求,同时这种信息需求可以界定在某一特定范围内时,这种特定的搜索引擎能提供更加准确完整
10、的信息,在用户既不用自己再进行分析判断,又能得到自己想要的信息。利用百度,我们确实可以检索出各种新书的相关信息,但是这些新书信息分布在不同的网站,采用这不同的格式,要想查询到我们想要的新书信息,我们还需要翻阅关于这些书的不同网页,综合比较和分析后才能得到我们想要的信息。因此整合不同网络平台的新书信息,通过分类,排序向用户呈现出更加简明完整的新书信息,有强烈的用户需求。主要内容:从合理满足用户需求的角度出发,在深入研究了解搜索引擎基本原理,架构设计和相关技术基础上做出一个能让用户满意的新书目录搜索引擎使我们研究本项目的主要目标。主要从以下几个方面阐述本项目的主要内容:1 .网络书目数据收集:利用
11、蜘蛛抓取从各种网络平台最新出版的图书信息;2 .根据搜集的书目信息,采用支持向量机等方法对图书进行自动分类;3 .实现基于n-gram书目信息检索系统。研究技术水平如下图所示:结论搜索引擎原理图:应用范围通过对各类图书信息网站的特点与搜索方式的研究与分析,本项目将研究和实现一个新书目录搜索引擎,整合网络平台上同一新书不同信息,获取有效信息,构建统一信息平台,方便用户获取新书信息。从而解决大学图书馆及其他机构图书搜新索以及管理问题,外加用户搜索时造成的垃圾信息处理与信息冗余问题。占-研究的重点、难点、创新1通过资料查询和调查讨论,分析并总结图书馆用户对新书信息的需求,有利于实现系统的合理性和有效
12、性2通过阅读大量国内外文献,在深入研究了解搜索引擎基本原理,架构设计和相关技术基础上,设计新书目录搜索引擎的基本框架3.根据设计出的系统的基本框架,运用相关技术建立一个合理完整的新书目录搜索引擎系统。点及实难点施方案1对用户的需求进行全面分析,筛选出用户所需要的所有信息2如何让蜘蛛抓取更多更全面的图书网站,搜寻到更多更完整的图书信息3 .对蜘蛛抓取回来的页面进行各种步骤进行预处理,提取有用信息存储到数据库,建立索引4 .如何构建出能够令用户满意的查询平台,实现对新书信息的有效查询。创新点本项目最大的创新点在于:用蜘蛛抓取特定的图书网站如亚马逊,当当网等(做到全面抓取这些网站),对网页上的新书信
13、息进行抽取,抽取出有用的信息,并将这些非结构化信息通过一定技术手段变成结构化的数据存储到数据库中,通过建立索引方便用户对新书信息进行查询。新书目录搜索引擎这一系统采用Spider,网页结构化信息抽取技术,索引技术等一系列方法将混乱,繁杂的图书信息整合起来,能定时、定向地查找不同平台的相关新书信息,它提供了一个统一的查询平台,用户能够根据事先设定的关键词组搜寻到其想要搜寻的图书信息。新书目录面向新书,解决了数据繁杂,冗余的问题。相比其他搜索引擎,新书目录搜索引擎的针对性更强,通过分析用户对新书信息的不同需求,能提供用户更全面,有效,简洁的信息,节省了用户的搜寻成本,方便了用户对新书的查询和购买。
14、可以说,这一系统的超强的实用性是不容忽视的,它不仅能解决大学图书馆及其他机构图书搜索以及管理问题,也能面向个体,为广大用户提供完整全面的新书信息,具有相当强的实际应用价值。实施方案:时间阶段主要内容2013年12月一2014年2月前期准备D确定主题:根据研究方向,确立研究重点,我们确定了现在的主题一一大数据环境下新书目录搜索引擎的研究与实现2)资料搜集:阅读大量国内外资料,深入了解搜索引擎基本原理,架构设计和相关技术3)调查分析:对目前为止存在的各类搜索引擎进行研究分析,总结出各类搜索引擎尤其是当今热门的搜索引擎的优缺点2014年3月到2014年10月实施阶段D用蜘蛛抓取网页筛选有用信息2)将这些信息保存到数据库中,建立索引3)构建查询平台方便用户查询2014年11月到2014年12月总结阶段做成一个完整的新书目录搜索引擎系统,分析总结经验,将实践和理论相结合,汇集成一篇客观的、可行性较强的论文预期成预期成果做出一个新书目录搜索引擎系统并写论文一篇,确保新书目录搜索引擎实用性和科果、学性,满足用户需求。知识产权知识产权归属情况形成及经宁波大学济、经济、社会效益分析社会1.分析各类图书信息网站的搜索模式、分类方法和页面布局,得出不同图书信息网效益分析站的综合特点;2 .分析新书目录搜索引擎对于图书网站的支持,总结新书目录搜索引擎对于图书网站的矛盾点;3 .通过对新书