Machine:WaybackMachineAPI参数

Wayback 机器提供了一个 API,允许您下载信息。实际上有多个 API,搜索几个小时后,我真的无法做到以下几点:

使用回路机 API,我试图获得在 06 / 06 / 15 上索引的所有域的列表

我在这里阅读了文档

https://archive.org/help/wayback_api.php

但我找不到...

我期望这样的工作:

http://archive.org/wayback/available?url=*&timestamp=20150606
4

这是不可能做你想做的(?url = *),通过设计,你要求我们去通过 36 TB 的数据来找出一个巨大的列表;这不是我们的查询引擎支持的查询。

1

是一个工作的例子检查它波纹管:

http://archive.org/wayback/available?http://sourceforge.net/projects/=%27+url+%27&timestamp=20131006000000

确保你有正确的时间戳值

这些是我用来生成 url 的行。它在 python 中:

url = "http://sourceforge.net/projects/"+name.rstrip()
wbm_url = 'http://archive.org/wayback/available?url='+url+'&timestamp=20131006000000'
1

自 2013 年以来,可能会有一个关于如何获取获取网站特定存档副本所需的时间戳的答案。

http://web.archive.org/cdx/search/cdx?url=archive.org&limit=5&showResumeKey=true

在这里解释:

https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server#advanced-usage

然后,为了得到确认这个 URL 的作品(使用 python 的请求):

w = requests.get('http://archive.org/wayback/available?url=archive.org&timestamp=997121112295')

或者你可以直接获取 HTML:

w2 = requests.get('http://web.archive.org/web/20040324162136/http://www.globalgiving.org:80/')

本站系公益性非盈利分享网址,本文来自用户投稿,不代表边看边学立场,如若转载,请注明出处

(986)
Plc编程书:面向对象编程和方法的书(object oriented programming book)
上一篇
如何禁用“这种类型的文件可能会损害您的计算机”弹出窗口
下一篇

相关推荐

发表评论

登录 后才能评论

评论列表(24条)