使用nutch检索的历程
创始人
2024-07-26 21:00:45
0

最近开始做一个项目的搜索引擎,技术选型为爬虫nutch。开始以为除了cms系统发布的静态页面以外,还有数据库存储的结构化数据需要索引(其实这些用页面是用jsp展示的,在系统中已经有了)。所以用爬虫爬完网站后,就想着再把结构化的数据通lucene的api写进nutch的索引中,最后通过多次尝试发现很难实现。虽然能将lucene建立的索引追加进到nutch的索引中,可是却很难读出来(有一款luke软件可以,可是想要赶紧完成项目,这个luke的源码没有时间来读)。

lucene是一个平面化的存储,一个索引就相当于数据库的一张表。而nutch的存储结构是hdfs存储系统,hadoop的分布式系统,索引里面写入了很多hadoop的数据,而且其中10个字段title/url/segment/host/site/content/anchor/boost/digest/tstamp业也不像原生的lucene索引的存放方式。多次尝试发现用lucene基础api读取nutch的索引很难实现。

最近才发现原来nutch的搜索应用中的一个的一个配置文件regex-urlfilter.txt ,里面默认在后台只爬取静态页面。所以导致我开始的想法。

知道这个以后好办了,修改后台和前台应用的配置文件,消除对php/jsp/xxAction.do等动态url的过滤:

方法如下:修改conf下面的2个文件regex-urlfilter.txt,crawl-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.

-[?*!@=]

修改成

# accept URLs containing certain characters as probable queries, etc.

+[?=&]

从而允许动态传参数的?=&等url的爬取。

换了个思路,省了不少事儿。nutch继续研究使用中

【相关文章】

  • 在Hibernate中处理批量更新和批量删除
  • 利用HSQLDB进行Hibernate单元测试
  • 使用Hibernate编写通用数据库操作代码

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...
《非诚勿扰》红人闫凤娇被曝厕所... 【51CTO.com 综合消息360安全专家提醒说,“闫凤娇”、“非诚勿扰”已经被黑客盯上成为了“木...
2012年第四季度互联网状况报... [[71653]]  北京时间4月25日消息,据国外媒体报道,全球知名的云平台公司Akamai Te...