谷歌的开源是储存robots【亚博】

本文摘要:据新闻报道,7月1日,谷歌在博客上发表了最重要的消息。

亚博网页版登录

据新闻报道,7月1日,谷歌在博客上发表了最重要的消息。谷歌的开源是储存robots.text解析器的CCT库,推进了REP(Robotsexclusionol)的降级。1994年,荷兰软件技术人员MartijinKoster明确提出了REP的概念,通过robots.txt的文件隐藏了不被搜索引擎抓住的信息。例如,只抓住应该抓住的页面,屏蔽一些网站中的小文件,屏蔽一些违宪链接的秘密脆弱。

(公共编号:)记录:搜索引擎的爬行方式(照片来自百度百科)可以这样解读。网站只有一个房间。robots.txt的文件是主人挂在门上的不要打扰的招牌,可以输给保管在贵重物品的房间,但是不是守门人,不能阻止故意的小偷。

领导多方力量的上缴议案25年过去了,业界回应了充分的接受,但现在看起来更加道德规范,不是官方的网络标准。但谷歌致力于改变这种现状。

谷歌在博客中表示,我们希望协助网站所有者和开发者在互联网上构建惊人的体验,而不是担心如何控制捕捉工具。谷歌和协议的发起人,以及其他网络管理者和搜索引擎共同制定了关于如何在现代网络上限制REP的议案,现在已经提交了IETF(根据Internet强制开发EngineringTaskForce、非利润互联网标准的组织,负责管理研究和推进互联网标准)。Google的议案出现了20多年来Googlebot和一些主要的网络爬虫类,以及约5亿人依赖REP的网站应用于robots.txt的实际经验,在现代网络水平上扩展,定义了robots.txt分析和给予的所有以前的未定义场所:任何基于URI的传输协议都可以用于HTTP开发商必须至少解析robots.txt,前500,KB。

定义文件的最大值,以确保连接不需要太长时间,从而减少服务器不必要的压力。新的最长存储时间为24小时或可用存储指令值,显示站点所有者的灵活性,随时改版robots.txt,爬虫程序使站点短路。当前可采访的robots.txt文件由于服务器故障而显得无法采访时,这些无法访问的页面很长一段时间内不会被搜索。

开源robots.txt。分析器不仅牵着很多力量向IETF提交议案,谷歌还提出了其他希望,开源自己的robots.txt文件库的目的是制作标准化的语法来分析文件,避免误解。谷歌在博客中说:REP是网络中最基本、最重要的构成部分之一,但它只是约定俗成的标准,这给网络管理者和爬虫类工具开发者带来了后遗症。

推进REP成为行业标准是最重要的。但是,对于解析robots.txt文件的开发人员来说,这种标准化需要更大的希望,因此我们开源了包含robots.txt解析器的CC库。相信这个c,库已经不存在了20年,其中包括从90年代开始写的代码片段。

在这20年里,这个库经历了很大的发展,复盖了很多写robots.txt文件的简单案例,对想建立自己的分析器的开发者有帮助。此外,谷歌还在开源软件包中添加了测试工具,可以帮助作者测试robots.txt的效果。

外界的态度在Google开源,robots.txt之后,这个话题引起了普遍的关注,登上了HackerNews。Constellation。

研究公司(根据:专门从事数字转型和霸权技术的技术研究和咨询的分析师Holermurr告诉SiliconANGLE,标准化对网络长期工作至关重要,很高兴看到Google在REP这样的基本上领先。HolgerMueller,与任何开源提案和标准化提案和标准化尝试一样,我们必须安静下来,考虑到这不顺利,我们可以在这里教什么。这是一个有点引人注目的领域。在国内,网民们也呼吁谷人希(按照谷歌,人类的期待)来应对这个事件的赞赏。

原始文章允许禁止发布。下一篇文章发表了注意事项。

本文关键词:亚博,亚博网页版,亚博网页版登录

本文来源:亚博-www.jooysforever.com