如何通过 Web Archive 备份论坛帖子?

有时看到一些帖子,我会顺手备份到 Internet Archive: Wayback Machine (右下角[Save Page]提交网址,或者使用浏览器扩展 和 markbooklet)

Make Discourse play nice with the Wayback Machine - #17 by ibnesayeed - feature - Discourse Meta 的讨论得知,可以通过设置浏览器的 User-Agent 为 Google Bot 使得 Discourse 页面也能备份,效果见 https://web.archive.org/web/20161125200006/https://meta.discourse.org/t/make-discourse-play-nice-with-the-wayback-machine/34579

然而我在 emacs-china.org 上做尝试,却始终未能成功:https://web.archive.org/web/20190215081647/https://emacs-china.org/t/lsp-mode/8059/8

2 个赞

估计和网页静态化有关, https://emacs-china.org/t/lsp-mode/8059/8 这样的网址太动态了,试试 https://emacs-china.org/t/lsp-mode/8059

———

睡不着 手机打开 vp嗯 试了一下可以

https://web.archive.org/web/20190215182706/https://emacs-china.org/t/lsp-mode/8059

http://web.archive.org/web/20190215184608/https://emacs-china.org/t/lsp-mode/8059/8 这样的网址也能成功。所以可能性是你 ua 设置不正确。正确 ua 是:Googlebot

1 个赞

用新的帖子试了一下,现在也可以了。 之前我设置的就是 Googlebot,这一点很确定。

上游的讨论,大概是因为 https://archive.org 不支持 JavaScript 生成的页面,然而 Discourse 因为某些原因依旧让它用 JavaScript 渲染,最近貌似有进展了:

我是用 User-Agent Switcher for Chrome 这个扩展来解决的。

当向 web.archive.org/web 提交 URL 的时候,自动切换 UA。

切哪个 UA 有用?试了下 Android 貌似不行,提示

抱歉!这个页面不存在或者是私密的。

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

1 个赞

可以,试了下保存本页面: