苏州
[切换城市]
收藏千搜 网站地图
让全世界精准客户找到你

百度、360、搜狗、神马、谷歌排名优化

15206197711

您所在的位置: 首页 > 千搜学院 > 网站优化

从页面去重和正向索引来讲搜索引擎的原理是什么 日期:2019-01-24 18:23:25  作者:千搜网络  点击:2314  点赞:
0 +1

搜索引擎将页面的去重:

对于一样的内容常常也出现在不一样的网站和这个网站的不同连接中,可是,搜索引擎却很讨厌这种重复。进行内容的查询,要是连续两个网站的内容看到的是一样的文章,那就会让用户对浏览的感觉变得糟糕。即使这上面的东西是很符合网站内容的。让返回内容是这两者中的一个,就需要对文章的内容进行识别并且删掉一样的。

这种过程使用的办法是将内容的特征关键词计算指纹,将内容中的具有代表的词(一般是高频词)找出来,计算它们的数字指纹。在进行中文分词、去停止词、消噪,一般找十个词就能够有准确的计算。而选择的再多,也不会对准确性再有太多的意义了。

就像是MD5算法,它的特点是,特征词变化一点点,就能让之后的指纹差很多。

想知道搜索引擎的这些算法,优化者需要懂得加上的类词、语句调序的伪原创,不能够躲开搜索引擎的这些算法,这是由于内容中的特征词不会改变。而这些算法不一定只是在一个页面,可能是在段落,融合的文章、转换的顺序也是不会将内容的摘抄变成原创的。

 

正向索引(索引)

经历过搜索引擎的以上一些介绍的步骤的处理后的文章,就成了特别的、能够展现文章内容、使用词为基础的内容。然后就能够提词了,将内容变成关键词的组合,然后还要知道这些词的出现多少、频率、样式(标题与H标签、黑字、锚文字……)、地方(像头一段)。

这样子,将页面变成关键词的组合,而且里面的关键词的词频、样式、出现的地方的权重信息也就在里面了。像索引词的格式:文件1——关键词1、关键词2、关键词7、……、关键词L;文件2——关键词1、关键词7……

文件都有独立的ID,将其内容显示为关键词的组合。而在索引库里,这些词也成了关键词ID。这种数据结构是正向索引。


相关热搜词:

分享至: