Google正在研究Web结构化数据
创始人
2024-03-20 21:51:39
0

互联网的搜索引擎们把主要精力都放在采集Web页面的文本信息上,但是Google却在研究如何分析和组织结构化数据方面小有所成,该公司的一位科学家上周五表示。

“在Web之外存在着大量的结构化数据,但我们却并没有很好地将这些数据展示给用户。”在马萨诸塞州技术研究院举行的新英格兰数据库日会议中,Alon Halevy在一次谈话中这样说道。

Halevy还谈到了所谓的“深Web”源,比如为Cars.com或者Realtor.com这类表单驱动型网站做后台支撑的数据库资源。Google一直都在不停的向各种表单提交查询请求,然后对返回的结果进行分析,最后将有用的内容加入到索引当中。

但是该公司仍然希望Web站点们能够将数据存放到结构化的表格中供google分析,Halevy说,例如在Web页面上提供一个表格列举出历任美国总统。

但是这样的表格也是数量巨大的,据Halevy说,Google的索引中已经收录了140亿个。他“很快就意识到其中有超过98%的内容是用户不感兴趣的,”但即使经过了仔细的筛选之后,仍然有1亿5400万个表格值得被Google索引。

Google的一个终极目标就是把一个搜索请求的结果组织成“各个方面”返回给用户,特别是像“越南旅游”这种比较宽泛的关键字,而不是“越南人口”这种非常具体的关键字,Halevy说,前面的搜索请求可能会产生关于签证条件、气候、旅行团等这类信息。

Kosmix已经在做这个点子了,但是Google将会做的更多,Halevy说,“Kosmix的确能够展示出‘方面’,但是它依赖于特定的信息源。”

在Kosmix上搜素“越南旅游”,它会给你提供一个结果集,包括纽约时报关于酒店的评论,来自雅虎和Flickr的图片,来自Shopping.com的购物信息以及来自Google的其他信息。

“而我们则不同,各方面信息都来自于Web的搜索结果,但会以不同的方式组织起来。”Halevy说。

【编辑推荐】

  1. Google启动Apps代理商项目 推广网络办公软件
  2. Google Android与Eee PC完美结合
  3. Google推Android Market帮开发者赚钱

相关内容

热门资讯

如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
施耐德电气数据中心整体解决方案... 近日,全球能效管理专家施耐德电气正式启动大型体验活动“能效中国行——2012卡车巡展”,作为该活动的...
20个非常棒的扁平设计免费资源 Apple设备的平面图标PSD免费平板UI 平板UI套件24平图标Freen平板UI套件PSD径向平...
德国电信门户网站可实时显示全球... 德国电信周三推出一个门户网站,直观地实时提供其安装在全球各地的传感器网络检测到的网络攻击状况。该网站...
为啥国人偏爱 Mybatis,... 关于 SQL 和 ORM 的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行...
《非诚勿扰》红人闫凤娇被曝厕所... 【51CTO.com 综合消息360安全专家提醒说,“闫凤娇”、“非诚勿扰”已经被黑客盯上成为了“木...
2012年第四季度互联网状况报... [[71653]]  北京时间4月25日消息,据国外媒体报道,全球知名的云平台公司Akamai Te...