介绍搜索引擎抓取不到的内容
创始人
2024-07-31 20:41:00
0

有些内容,网上明明存在,但是你用搜索引擎搜不到。如果事先理解搜索引擎能做的和不能做的,你就可以设计更佳的搜索策略。而搜索之前思考一下搜索策略,是搜索成功最关键的一步。

这样的内容,主要有3类:

1、网上有,但是搜索引擎库里没有

1.1 spider未能正确处理的网页性质及文件类型(如flash、script、ps、某些动态网页及frame、数据库)

1.2 没有指向链接的孤岛网页

1.3 spider访问时因为某些原因正好是死链接

1.4 被认为是劣质网页而不抓

1.5 因为/色情/反动/spam/等问题而不抓的非法网页

1.6需要输入用户名、密码方可打开的网页

1.7 网站用robots协议拒绝搜索引擎抓取的网页

1.8 搜索引擎还未来得及抓取的新网页

1.9 gopher、newsgroups、Telnet、ftp、wais等非http信息

1.10 网站数据库做得太差劲,spider一抓就宕,只好不抓

2、搜索引擎库里有,但是未能正确索引网页中信息

2.1 分词引起误差

2.2 图型中的文字信息你看得懂但搜索引擎看不懂

2.3 停用词等搜索引擎故意不索引的信息

2.4 搜索引擎对某些网页有选择的索引,未索引全部网页信息

3、搜索引擎正确索引了网页中信息,但和你用的关键词不同

3.1 你用的搜索关键词中含有错别字

3.2 网页作者用了错别字

3.3 没有错别字,但网页作者用的词汇和你的关键词不同,毕竟,文字的特性,允许有n种方式表达同一种信息

3.4 简体繁体不同编码

希望本文对你有帮助。

【编辑推荐】

  1. 四个方面 让你学会分析网站
  2. 做好seo 需具备的好习惯
  3. 建设高质量外链之时刻反思四个问题
  4. 分享提高网站流量的十大方法
  5. 谈SEO之内链布局的重要性

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
Windows恶意软件20年“... 在Windows的早期年代,病毒游走于系统之间,偶尔删除文件(但被删除的文件几乎都是可恢复的),并弹...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
着眼MAC地址,解救无法享受D... 在安装了DHCP服务器的局域网环境中,每一台工作站在上网之前,都要先从DHCP服务器那里享受到地址动...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...