手机浏览器扫描二维码访问
但说的简单一点,其实核心就是一个东西,算法。
因为每一个技术都离不开算法。
“我不太清楚在座各位在搜索引擎方面的建树和理解,我只能先按照我的节奏说下去,如果谁有问题可以随时打断我。”孟谦走到黑板前直入正题。
“在我展示我的核心技术之前,我们先来看看当下的三大主流算法,白度的链分析,谷歌的pageRank算法以及IBm的hITs算法。
几乎所有人都觉得白度的链分析是三个算法中最落后的,但有些事情我们还是要多角度的看一看,白度的链分析在某种程度上可以算得上是奠定了搜索引擎的展基础。
有一些声音说谷歌其实是剽窃了白度的链算法,毕竟李彦宏这个专利确实在谷歌之前,我们现在不去猜测真假,但这种说法体现了一个很重要的信号,其实不管是哪一家的算法,算法基础其实都是一样的。
抓取网页信息,然后用某种机制对这些网页进行排序,当用户输入关键词进行搜索时,根据关键词匹配出按照机制进行排列的网页。
那么白度输在哪呢?关键就在于白度现在过于简单的基于在某次搜索的所有结果中被其他网页用链接指向的越多的网页就价值越高这种基础排序方式。
相比之下,谷歌的pagerank就多了两件很重要的事情,第一件事情是,把a页面到B页面的链接解释为a给B的投票行为,谷歌在这里会同时考评a和B的等级从而形成的等级。
也就是每一个页面都有pR值,同时你的pR值会成为其他页面pR值的参考。
然后不断的重复计算每个页面的pR。假设给每个页面一个随机pR值,那么经过不断的重复计算,这些页面的pR值会趋向于稳定,也就是收敛的状态。
至于hITs,其理论基础依然没变,它最大的特点或者说改变就在它意识到pagerank算法平均的分布权值不符合链接的实际情况。
所以hITs算法中引入了另外一种网页,称为hub网页,hub网页是提供指向权威网页链接集合的eB网页。
所以使用hITs的搜索结果会比其他两者都更权威,但这个算法会大大增加计算负担,对吧?”
孟谦看了一眼IBm出来的哥们,对方愣了一下有点好像不确定的点了点头。
所以现在简单总结一下,搜索引擎的算法基础就是链分析,算法的优劣势就在于如何让搜索结果更具有参考价值,让用户获得更有效的信息。
当然如果能直接理解用户的需求然后帮他搜索他最想要的内容,这是最理想的搜索引擎状态,但谁都知道这是不可能的。
因此搜索引擎的好坏决定的就是同样的关键词下,你是否能让相对更多的人获得他们想要的内容。
1o个用户用谷歌,5个人找到了自己想要的东西,如果用我们的搜索引擎,6个人找到了自己想要的东西,在这里领域目前的技术环境下,我们就是更优秀的。
那么在这个理解基础上,我接下来要给大家介绍的,就是我的搜索引擎算法,动态规则链分析算法。
动态规则链分析算法有以下几个变化。
第一,刚才我们提到了,好的搜索引擎是要看在同一关键词下谁的反馈结果更能满足用户需求,那么当用户在搜索某个东西的时候,从大概率来说,他想要看到的结果应该是与这个东西具有更垂直型相关的内容。
举个例子,客户在搜索汽车的时候,不管他是想买车,还是想了解汽车知识,汽车类的专业网页对他的帮助应该都是更大的。
所以在我的算法中,对于指向某一个网站的链接,我先会做垂直率评分,比如有现在有1o个网站链接到了a,这1o个网站都是汽车类网站和这1o个网站都不是汽车类网站的结果,想必是肯定不一样的。
这里还有一个小小的心理问题,那就是同行之间很少会做链接,所以拥有更多垂直类网站链接的网站,它的专业性肯定比被乱七八糟网站链接的网站要更大概率靠谱。
第二,建立关键词库热度排序机制,现在的几家搜索引擎企业都对网页做了排序,而我对关键词也做了排序,而且给关键词做排序非常简单,那就是看用户的搜索量。
就比如今天搜索汽车的用户最多,那么汽车的评分可能就是1o分,这个时候,算法会分配更多的资源到汽车相关的信息上去,去抓取更多的优质网页。
这里有四个好处,提升信息反馈度、增加热点反馈的时效性、节约计算机资源以及围绕最终目的,让更多使用我们搜索引擎的用户得到有用信息。
第三,用户反馈机制,也就是跟踪用户的点击情况和浏览情况。
还是用汽车举例,有1oo个用户搜索汽车后,8o个点击了a网页,a网页的评级就会上升,如果有更多的用户在a网页的停留时间较长,a网页的评级也会上升,如果有更多的用户在a网页上直接进行链接等操作,a网页的评级也会上升。
也就是说,在整个网页评级系统中,加入用户反馈分。
第四,规律算法,在用户的所有行为中寻找大概率行为,并将这些大概率反馈到人工,比如说6o%搜索了汽车的用户下一个搜索词都是保险。
这样的一些规律我们是无法预测的,但我们可以利用算法进行大数据挖掘,回馈的这些结果可以供人工分析部对一定的网页进行评分,这个就是人工分。
凡是狂妄者,要么实力过硬,要么靠山过硬,舒幻两样都有,她不嚣张谁嚣张!舒幻本是魔教圣女,天选之子重生成没有灵根的废物三小姐,没关系手握爽文女主剧本,完美逆袭,登顶至尊!开灵穴,复美貌,撩美男,驭万兽,习上古功法,破世间陈规,人敬我我敬之,人若欺我,虽远必诛之!他是庆国的天才御灵师,俊美如谪仙,亦是让人闻风丧胆的战神至尊魔妃废材小姐有点狂...
六千里我的鱼塘人群拥挤,你能成为其中的一员,是你的荣幸。这样让人三观崩塌的话从校花的口中说出来,让那时的江城彻底心碎。自己苦苦追求了四年的女孩居然是个养鱼大亨,资深pua。这一世重生十年前,江城带着系统强势回归,再也不愿意看那所谓的校花一眼。掌握八国语言!攻克人类基因组!为华夏科技进步而奋斗!量子力学!熵增定律舔狗四年,我不舔了校花急了?...
我叫李礼,礼貌的礼。是楚地改革的领头人,是修仙界灵子学说的提出者,更是修仙界革命的先锋,我将创造属于我的时代!简单来说就是带着地球图书馆的李礼在修仙界研究修仙,研究灵子,融合科学,开新的修仙模式的故事。第一卷为凡人篇,主要写改造楚地的故事,不喜慢节奏的可以从第一卷卷尾语开始看。修仙大革命时代...
简介关于树王大人纳西妲,妈妈回来了世界遗忘我大慈树王抱着小草神,随后身形便化为星辰消散。什么,我的大慈树王就这么被世界遗忘了?策划你等着,看我刀不刀你!伊傅看着原神须弥的剧情,十分的愤怒。本来看着小草神纳西妲被教令院囚禁5oo年,他已经快提着刀去找策划了。结果现在他心心念念的大慈树王也被刀死了。气的他直接砸了电脑。结果没想到自己居然穿越到了提瓦特大6,而且还成为了5oo年前净化污染后大慈树王。教令院是吧!让你们关我女儿5oo年。我直接把你扬了。世界树污染是吧!你看看这回谁遗忘谁!我,大慈树王,伊芙,重回须弥王座巅峰。...
她是百年将门最小的女儿,身份尊贵,父兄呵护,活得肆意随性,却被未婚夫和表妹联手害死,醒来竟成了当今煜王的王妃秦晚,一个自小被放养到山村的庶女,性格懦弱,胆小怕事,而她的表妹幻化了她的容貌,取代了她的一切卿月恨到极致,誓要揭开一切真相,手刃仇人,只是当身份明了,一切浮出水面,她面对两个男子,又该何去何从?...
姜棠睁开眼睛,魂穿十八线全网黑的女星身上,全网叫嚣让她滚出娱乐圈。网友干啥啥不行,倒贴玩暧昧炒作第一名。所有人都以为姜棠要糊了。直到网传姜棠倒贴炒作的男明星糊到地底,姜棠名气仍旧只增不减。...