森库博客

无执之执:理性、建设性,信息创造价值

« 一份比照日志:30岁之前的你,有些事情有没有恰当地去做边下边看边点评,迅雷推出影视点评分享社区狗狗派 »

百度阿拉丁上线,搜索开放平台邀您提交数据

  根据百度快照显示,百度搜索开放平台(open.baidu.com)在4月18日之前就已上线,而百度百科上则显示这一词条在4月14日即已创建。

  百度介绍,百度搜索开放平台是一个基于百度网页搜索的开放的数据分享平台,主要面向广大站长和开发者,他们可以直接提交结构化的数据到百度搜索引擎中,获得更多有价值的流量,并使用户获得更好的搜索体验。

  目前,百度搜索开放平台已开放注册,不过,其账号与百度空间帐号并不互通。  

百度阿拉丁账号 百度搜索开放平台

   笔者尝试注册百度搜索开发平台,随后收到的一份账号激活邮件,百度称“请激活你的百度阿拉丁帐号, 完成注册”,该激活信件的落款亦为“百度阿拉丁”。

  媒体报道称,百度搜索开放平台即为百度阿拉丁计划。尽管没有来自百度的明确信息,不过,通过百度搜索开发平台注册的账号就是百度阿拉丁帐号已经确信无疑,可以说,这一账号将作为应用百度阿拉丁计划的基础。此外,百度搜索开放平台的广告图片即为“阿拉丁神灯”样式,同时,百度搜索开放平台通过域名alading.baidu.com也可以访问。

  2008年12月百度在上海首次公布新一代搜索平台“阿拉丁平台”计划,并宣称通过新平台将称解决现有搜索无法抓取、检索互联网上大量的暗网问题。有百度人士指出,“阿拉丁”计划旨在超越现有Web内容的限制,以便让这些信息能以最富有效率的方式,直接被广大用户在互联网上搜索和使用。  

百度阿拉丁账号 百度搜索开放平台

   通过参看百度搜索开放平台相关介绍,百度搜索开放平台即是意欲更好地抓取互联网数据。百度搜索开放平台抓取数据的模式和百度的互联网新闻开放协议具有相似之处,都是通过百度既定的协议,给予用户一定自主度,在一个平台上完成数据的筛选。

  百度搜索开发平台要求数据的提交必须按照XML协议,用户向百度搜索开放平台提交包含相关数据的xml地址,百度的程序定周期定向地访问这一XML地址。这个周期由用户在提交资源时设定,百度会参考这个值定期地检查xml文件是否改变, 因此,用户应提供固定的XML地址,而地址上的内容按照更新周期持续更新,若无法更新将失去被收录的意义。

  Xml是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。简单可理解为,信息交换双方按照这一协议将使得信息的交换更加规范和有效。

  百度搜索开放平台这一信息搜集方式和RSS订阅类似,不过,百度更加注重信息的针对性和具体性。百度表示,目前只接受“确定性”数据资源,这包括两方面:一是对于数据,要求精确、全面,并且更新及时;二是对于服务,要求高度的稳定性,和快速的响应时间。

  百度搜索开放平台这一信息搜集方式将比传统的sitemap更加有效和灵活。通过传统意义的sitemap协议,您主要可以实现向搜索引擎提交您希望收录的网页和在一定程度上减轻了抓取产生的额外负担。而借助了百度搜索开放平台,您则可以向搜索引擎提交您指定的资源,且不局限于网页; 指定这些资源的更新周期,更合理、更节省;指定资源在搜索哪些关键词时会展现;指定资源在搜索结果中的展现样式,不局限于传统的文本结果;还可查看资源的详细统计等其它附加功能。

  给予用户在数据提交中的更大自由度,谷歌于2005年上线的Google Base(base.google.com)正是此番考虑,不过Google Base更多关注商品,而百度搜索开放平台则范围涵盖得多。

作者:无执之执 来源:森库博客(sysku.com) 地址:http://www.sysku.com/post/787.html
Creative Commons 3.0 :原创文字,恳请保留版权标识。欢迎尽情演绎,不对他者有所伤害。

发表评论:

理性、建设性,信息创造价值。森库博客提示:您的言论必须遵守当地法律,并且不对他者有所伤害。

Copyright © 2003-2010 Sysku.com. All Rights Reserved. 森库博客 版权所有 陕ICP备09008899号

Licensed under the Creative Commons 3.0 License. 创作共用版权协议3.0,可创作演绎、不限形式传播,要求标注版权标识、不对他者有所伤害。