77范文网 - 专业文章范例文档资料分享平台

Google网页排序算法中PageRank值

来源:网络收集 时间:2019-04-01 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

社会环境下网页重要性的研究

社会环境下网页重要性的研究

指导老师:陈强

邓青云 信息工程 20060003014

1

社会环境下网页重要性的研究

中文摘要

近年来,随着internet的不断发展,Web已经成为人们的重要信息来源,为人们提供了丰富的信息资源。与此同时,它所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也给We资源的发展发掘造成了相当的难度。通过分析和研究作为一种相当成功的基于超链分析的算法Google PageRank,可以有效地衡量网页重要度权值 ,然而进一步的研究也表明 ,这种纯粹依赖于超链分析的算法由于没有考虑到网页访问者对网页重要度权值的影响 ,所以在一定程度上会造成偏差 。因此 ,合理的将两者进行结合,充分利用访问者的知识水平和网页内容特征对PageRank 算法进行改进,得出最终搜索引擎排序优化算法,可以极大的提高这种算法的有效性和正确性。

关键词:超链分析,PageRank,算法,访问者,优化

2

社会环境下网页重要性的研究

ABSTRACT

In recent years, along with the continuous development of the Internet, Web has become an important source of information, the people for the people provides abundant information resources. Meanwhile, it has the mass data, complexity, and strong dynamics and characteristics of the user to ship polymorphism of the development of resources of excavation caused considerable difficulty. Through the analysis and research as a fairly successful based on the analysis of the algorithm is hyperlinked PageRank Google, which can effectively measure web importance weights, however, further studies have also shown that this kind of dinkum chain analysis depends not considering the algorithm due to web page visitors the influence degree of important value, so to some extent. Therefore, both are reasonable, fully utilize the knowledge level and visitors to page features PageRank algorithm was improved, the search engine optimization algorithm, can sort of improving the correctness and validity of this algorithm.

Keywords: hyperlink analysis algorithm, the visitor, PageRank optimization

3

社会环境下网页重要性的研究

目录

1.Google 搜索引擎简介 ............................................................................................................. 5

1.1 Google的软件文化理念 ................................................................................................... 5 1.2 搜索引擎的分类 ............................................................................................................... 5 1.3 Google搜索引擎工作原理[3] ............................................................................................ 6 2.传统Google PageRank算法分析 ............................................................................................ 9

2.1 传统Google PageRank算法概述[4]................................................................................. 9 2.2 传统 PageRank算法回顾.............................................................................................. 10

2.2.1传统 PageRank算法代数表达形式...................................................................... 10 2.2.2 传统 PageRank算法向量表达形式..................................................................... 12 2.3 传统Google PageRank的缺陷和改进方法 .................................................................. 13 3.Google PageRank 算法改进 .................................................................................................. 15

3.1由访问者知识水平及其投票的情况决定网页排名的 PageRank 算法...................... 15

3.1.1 算法中PR值的含义 ............................................................................................. 15 3.1.2 从投票角度分析算法的本质 ................................................................................ 15 3.1.3 算法改进的详细设计思路 .................................................................................... 16 3.2 计算每个访问者的PageRank值................................................................................... 17

3.2.1 计算访问者PR值的数学表达式 ......................................................................... 17 3.2.2 访问者PR值的循环收敛计算方法 ..................................................................... 19 3.2.3访问者PR值算法的简单模型 .............................................................................. 21 3.2.4 Visual Basic编程验证算法收敛 ............................................................................ 23 3.2.5 matlab编程验证算法收敛 ..................................................................................... 29 3.3 网页PR值的计算方法 .................................................................................................. 37

3.3.1 计算网页PR值的理论基础 ................................................................................. 37 3.3.2 建立数学模型 ........................................................................................................ 38 3.3.3 Visual Basic编程验证算法的正确性 .................................................................... 39 3.3.4 matlab编程验证算法的正确性 ............................................................................. 42

4.改进算法的事实可行性 ......................................................................................................... 44 5.将改进算法与Google PageRank传统算法结合的最完美排序方法 .................................. 46 6.小结 ......................................................................................................................................... 48 附录 ............................................................................................................................................... 49 参考文献 ....................................................................................................................................... 51 致谢 ............................................................................................................................................... 52

4

社会环境下网页重要性的研究

1.Google 搜索引擎简介

1.1 Google的软件文化理念

根据《中国互联网络发展状况统计报告 ( 2005/1) 》用户在互联网上获取信息最常用的方法是通过搜索引擎:占70. 7 %。远远高于位于第二位的直接访问已知的网站:占24. 6% 。搜索引擎的后起之秀 Google 每天处理的搜索请求已达 2 亿次。现在全球有75%的网上信息搜索是靠Google的技术完成,大大促进了人类的信息搜索的效率。而作为品牌价值,仅Google这个名字的无形资产,竟出人意料地在如此短的时间,一下子超过了苹果、IMB、可口可乐,真正实现了跳跃性的发展。Google主页面不以花哨取胜,而以功能表现为本。它的先进的软件理念正是建立在软件功能模块上,研究其功能特点,我们发现Google技术上的先进,来自于文化理念上的先进,并敢于打破传统独树一帜[1]。

首先,Google用先进的PageRank技术理念,以平等、实用、公正为组织原则,优化整合全球Web网页资源。在搜索方法上,Google更是化繁为简,为大多数网民利益考虑,做到软件使用大众化。其次,在对待语言工具的问题上,不搞大国沙文主义,真正摈弃了语言上的贵贱之分,将多种语言平等地整合在同一界面,实现了以人为本的软件理念。同时注重创新,注意吸纳新网站,以组成世界信息大家庭,并且充分尊重新网站的特殊要求和选择权利,再进行搜索引擎数据库的录入处理。再次,Google的中文搜索引擎的完美设计,体现了设计者的国际市场合作精神,Google搜索引擎对中文的支持力度,使它成为目前是收集亚洲网站最多的搜索引擎,同时能够取他人之长,与他人联手,以团队合作精神推出新技术新功能。

1.2 搜索引擎的分类

搜索引擎是指因特网上专门提供查询服务的一类网站,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的作用。

搜索引擎系统可以分为:目录式搜索引擎、机器人搜索引擎和元搜索引擎。 目录式搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。

机器人搜索引擎:是指通过网络搜索软件(又称为网络蜘蛛[2],网络爬行机器人,网络搜索机器人) 或网站登录等方式 ,以某种策略自动地在互联网中搜集和发现信息,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信

5

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库Google网页排序算法中PageRank值在线全文阅读。

Google网页排序算法中PageRank值.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/561234.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: