AI算法入驻Google搜索引擎,词条再冷也可手到擒来!

韩璐 8年前 (2016-06-27)

近期,Google搜索引擎引入一种新的算法,在此基础上,哪怕搜索词条再冷门,用户也可以搜到自己满意的信息。

互联网的能力是强大的,它几乎囊括了一切我们日常生活中想要获得的信息,但有时候因搜索词条过于冷门而找不到信息时,大多数人也只能双手摊开,表达自己的无奈。在这个bug的前提下,搜索引擎人工智能化成为目前不可阻挡的趋势。

日前,搜索引擎巨头Google在自家搜索引擎中引入一种名为RankBrain的基于人工智能技术开发的算法,以优化搜索引擎的网页排名。具体是怎么操作的呢?

网页排名操作步骤

一般来讲,搜索引擎的网页排名基本分为4个步骤:

爬行抓取:搜索引擎蜘蛛(一个能够在网上发现新网页并抓文件的程序)从已知的数据库出发,像正常用户的浏览器一样访问网页并抓取文件。另外,蜘蛛还会爬行跟踪网页中的链接以访问更多的网页,再重复以上抓取过程。

索引:这些页面文件被蜘蛛抓取后,将会被进行分解、分析,并以巨大表格的形式存入数据库。其中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。

搜索词处理:用户在搜索框内输入关键词并单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,判断是否需要启动整合搜索、是否有错别字等情况。

排序:在上述三个步骤完成后,根据搜索词,搜索引擎将会从索引数据库中找出所有包含搜索词的网页,然后根据排名算法计算出哪些网页应该排在前面,最后按照一定格式返回到"搜索"页面。

网页排名影响因素

在网页排名关键中,网页的排名先后受到诸多因素的影响,就拿Google的排名公式来看:Google分数=(相关关键词分数X0.3)+(域名权重X0.25)+(外链分数X0.25)+(用户数据X0.1)+(内容质量分数X0.1)+(人工加分)–(自动或人工降分)

从公式中我们可以看出,针对搜索引擎网页排名,最为直观的影响因素就有6个,分别是关键词、域名权重、外链分数、用户数据、内容质量以及人工干预,而在这6大因素下面,又有着各自其他的小因素,例如在用户数据这一块上,搜索引擎就要考虑到搜索引擎结果页面(SERPs)的点击率、用户在网页上呆的时间、域名或URL搜索量、访问量及其他Google可以监测到的数据(工具条、GA之类)等4个小因素,至于这4个因素下面还有多少其他的小小因素,这就不得而知了。

RankBrian的工作原理

搜索引擎网页排名的的基本工作原理已大概知晓,虽然搜索引擎的数据库很强大,但仍然会有一丝瑕疵的存在,比如冷门关键词的相关搜索。由于关键词的逻辑排列以及固定词汇等因素,搜索引擎给出的信息难免会有局限性,从而不能正确或全面得对关键词进行理解,以给出用户所需要的信息。

Google在搜索引擎中引入的RankBrain算法,其目的就在于优化搜索引擎的网页排名。目前,在 Google 用来决定网页排名的数百个因素中,RankBrain的重要性已经位居第三。

而在冷门词条搜索方面,RankBrain算法也确实有效的给出了一个解决方案。通过RankBrian,Google可以对这部分冷门词条进行分析和重新匹配,从而使得搜索结果更加准确。举个例子:在 Google 中输入“best flower shop in Los Angeles”一类冷门的搜索,RankBrian会通过语义分析和词库联想,识别出搜索关键词的重点意义。比如这句话,RankBrian就会判别出其与搜索频率更高的“best LA flower shops”比较像,然后给出后者的搜索结果。

从RankBrian的工作原理可以看出,其最为关键的人工智能技术就是“语义理解”,只要将这部分做好,那么在将来,哪怕是再冷门、再繁琐的搜索词条,Google都能给予用户最准确的信息反馈。

据悉,早在2015年年初,Google就逐渐推出了RankBrain,但也仅限于一部分搜索结果。目前,Google已将该算法应用于每天每一次的搜索中,每天提供的搜索服务多达55多亿次。

最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!

镁客网


科技 | 人文 | 行业

微信ID:im2maker
长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

分享到