Wayback 机器提供了一个 API,允许您下载信息。实际上有多个 API,搜索几个小时后,我真的无法做到以下几点:
使用回路机 API,我试图获得在 06 / 06 / 15 上索引的所有域的列表。
我在这里阅读了文档
https://archive.org/help/wayback_api.php但我找不到...
我期望这样的工作:
http://archive.org/wayback/available?url=*×tamp=20150606
这是不可能做你想做的(?url = *),通过设计,你要求我们去通过 36 TB 的数据来找出一个巨大的列表;这不是我们的查询引擎支持的查询。
下面是一个工作的例子检查它波纹管:
http://archive.org/wayback/available?http://sourceforge.net/projects/=%27+url+%27×tamp=20131006000000确保你有正确的时间戳值
这些是我用来生成 url 的行。它在 pytn 中:
url = "http://sourceforge.net/projects/"+name.rstrip()
wbm_url = 'http://archive.org/wayback/available?url='+url+'×tamp=20131006000000'
自 2013 年以来,可能会有一个关于如何获取获取网站特定存档副本所需的时间戳的答案。
http://web.archive.org/cdx/search/cdx?url=archive.org&limit=5&swResumeKey=true在这里解释:
https://github.com/internetarchive/wayback/tree//wayback-cdx-server#advanced-usage然后,为了得到确认这个 URL 的作品(使用 pytn 的请求):
w = requests.get('http://archive.org/wayback/available?url=archive.org×tamp=997121112295')
或者你可以直接获取 HTML:
w2 = requests.get('http://web.archive.org/web/20040324162136/http://www.globalgiving.org:80/')
本站系公益性非盈利分享网址,本文来自用户投稿,不代表边看边学立场,如若转载,请注明出处
评论列表(61条)