JustAnotherArchivist
|
fd8d502266
|
Nit: replace double quotes with single quotes
|
před 3 roky |
JustAnotherArchivist
|
ff096bf8dd
|
Fix display of zero timestamps
|
před 3 roky |
JustAnotherArchivist
|
db3e79b9c9
|
Print repository URLs instead of names
|
před 3 roky |
JustAnotherArchivist
|
22744fe908
|
Add script for listing repos of a user or group on GitLab.com
|
před 3 roky |
JustAnotherArchivist
|
5678b586ac
|
Add script for requeueing skipped URLs due to too many failed attempts on wpull crawls
|
před 3 roky |
JustAnotherArchivist
|
f05a8a79bc
|
Clean up wpull DB commands
|
před 3 roky |
JustAnotherArchivist
|
cbebafe588
|
Colourise sha1sum output
|
před 3 roky |
JustAnotherArchivist
|
18a3305e79
|
Fix handling of filenames with spaces and ampersands
|
před 3 roky |
JustAnotherArchivist
|
788b25707d
|
Handle more domains and case variations
|
před 3 roky |
JustAnotherArchivist
|
36aa2e8259
|
Add archivebot-log-extract-ignores
|
před 3 roky |
JustAnotherArchivist
|
5b731fbde1
|
Fix compatibility with wpull 2.x
|
před 3 roky |
JustAnotherArchivist
|
743e0582ba
|
Fix confusing error message when lxml is not installed
|
před 3 roky |
JustAnotherArchivist
|
491a80a04b
|
Add warc-tiny scrape command for parsing HTTP responses using wpull and extracting links
|
před 3 roky |
JustAnotherArchivist
|
fd2728f1b8
|
Add archivebot-irccloud-paste
|
před 3 roky |
JustAnotherArchivist
|
4eff3c3eb3
|
Refactor, strip query/fragment
|
před 3 roky |
JustAnotherArchivist
|
821cacf626
|
Add --help
|
před 3 roky |
JustAnotherArchivist
|
caffebab2e
|
Add parent-urls
|
před 3 roky |
JustAnotherArchivist
|
77ec76bc04
|
Add --urls and --nodl options
|
před 3 roky |
JustAnotherArchivist
|
06cf71f73d
|
Fix gofile.io download: getServer is not used by the website anymore, and getUpload no longer returns the MD5
|
před 3 roky |
JustAnotherArchivist
|
bff1490871
|
Add github-list-repos
|
před 3 roky |
JustAnotherArchivist
|
bf695d63a3
|
Fix channel URLs
|
před 3 roky |
JustAnotherArchivist
|
dde4464555
|
Cover two more rare URLs
|
před 3 roky |
JustAnotherArchivist
|
bbf2d2c315
|
Be more lenient regarding slashes to catch things with collapsed URLs in paths etc.
|
před 3 roky |
JustAnotherArchivist
|
362f66eb26
|
Handle youtube-nocookie.com and fix removenonyt mode not recognising CC domains
|
před 3 roky |
JustAnotherArchivist
|
81e2b4b999
|
Refine patterns
|
před 3 roky |
JustAnotherArchivist
|
9974d4613c
|
Stop trying to rewrite patterns for percent encoding
|
před 3 roky |
JustAnotherArchivist
|
0ee83bc0f2
|
Refactor
|
před 3 roky |
JustAnotherArchivist
|
b66260ca94
|
Add youtube-extract
|
před 3 roky |
JustAnotherArchivist
|
d82dff8b71
|
Add ETA column
|
před 3 roky |
JustAnotherArchivist
|
01274e461a
|
Prevent constantly moving bytes around for better performance on large chunked records
|
před 3 roky |
JustAnotherArchivist
|
77d9f61de0
|
Colourise output
|
před 3 roky |
JustAnotherArchivist
|
6512669cfd
|
Refactor and compare file list as well
|
před 3 roky |
JustAnotherArchivist
|
8e0cb30d0a
|
Add atdash mode
|
před 3 roky |
JustAnotherArchivist
|
5fe595d71c
|
Record wrapper script in meta WARC as well
|
před 3 roky |
JustAnotherArchivist
|
c1def0e7a8
|
Fix S3_WITH_LIST_URLS being defined (but empty) when --with-list-urls is not used
|
před 3 roky |
JustAnotherArchivist
|
398cbfdcda
|
Add s3-bucket-list-qwarc, rewritten s3-bucket-list on top of qwarc
|
před 3 roky |
JustAnotherArchivist
|
80084e0d35
|
Another alternative and performance/memory comparison
|
před 3 roky |
JustAnotherArchivist
|
6a288a6338
|
Use grep instead, which is faster but uses more memory
|
před 3 roky |
JustAnotherArchivist
|
4d274e64e0
|
Add dedupe
|
před 3 roky |
JustAnotherArchivist
|
a4af8e6ca6
|
Add IE6 UA
|
před 3 roky |
JustAnotherArchivist
|
ac277437a3
|
Add Googlebot UA
|
před 3 roky |
JustAnotherArchivist
|
0181e53f01
|
Treat NXDOMAIN and no A/AAAA record errors as ok
|
před 3 roky |
JustAnotherArchivist
|
41c2a9d2d4
|
Add support for alternative xmlns
Used on Google's storage under https://storage.googleapis.com/bucket/
|
před 3 roky |
JustAnotherArchivist
|
830e9dbc43
|
Treat redirects as successful retrievals
|
před 3 roky |
JustAnotherArchivist
|
7a999c9b0a
|
Ignore redirects
|
před 3 roky |
JustAnotherArchivist
|
579d589853
|
Add a script to extract errors from wpull 2.x logs
|
před 3 roky |
JustAnotherArchivist
|
d60948e90f
|
Verbosity
|
před 3 roky |
JustAnotherArchivist
|
a9a4792854
|
Fix server validation
|
před 3 roky |
JustAnotherArchivist
|
57e2e26d80
|
Support multi-file uploads
|
před 3 roky |
JustAnotherArchivist
|
02c967f608
|
Add gofile.io download script
|
před 3 roky |