JustAnotherArchivist
|
34503dd274
|
Guarantee stable output order
|
3 년 전 |
JustAnotherArchivist
|
0198b221a8
|
Add ia-files-xml-to-jsonl
|
3 년 전 |
JustAnotherArchivist
|
d32791af0c
|
Handle HTTP/2 lowercase headers
|
3 년 전 |
JustAnotherArchivist
|
06682674bb
|
s/transfer.notkiska.pw/transfer.archivete.am/
|
3 년 전 |
JustAnotherArchivist
|
0f477ca79d
|
Replicate the GitHub script interface for convenience
|
3 년 전 |
JustAnotherArchivist
|
8f50291318
|
Add --git-urls and --gitgud-complete-items
|
3 년 전 |
JustAnotherArchivist
|
e3b77bf322
|
Ignore TLS issues
AWS decided to push vhost buckets without solving a glaring issue: when a bucket name contains dots, it gets served with an invalid certificate...
|
3 년 전 |
JustAnotherArchivist
|
d915a18a40
|
Pass through datetime, math, re, and time to --pyfilter
|
3 년 전 |
JustAnotherArchivist
|
5486b6a224
|
Add --grafana-eta
|
3 년 전 |
JustAnotherArchivist
|
885001aab6
|
Fix --no-table help text (leftover from pre-pure-Python)
|
3 년 전 |
JustAnotherArchivist
|
fd8d502266
|
Nit: replace double quotes with single quotes
|
3 년 전 |
JustAnotherArchivist
|
ff096bf8dd
|
Fix display of zero timestamps
|
3 년 전 |
JustAnotherArchivist
|
db3e79b9c9
|
Print repository URLs instead of names
|
3 년 전 |
JustAnotherArchivist
|
22744fe908
|
Add script for listing repos of a user or group on GitLab.com
|
3 년 전 |
JustAnotherArchivist
|
5678b586ac
|
Add script for requeueing skipped URLs due to too many failed attempts on wpull crawls
|
3 년 전 |
JustAnotherArchivist
|
f05a8a79bc
|
Clean up wpull DB commands
|
3 년 전 |
JustAnotherArchivist
|
cbebafe588
|
Colourise sha1sum output
|
3 년 전 |
JustAnotherArchivist
|
18a3305e79
|
Fix handling of filenames with spaces and ampersands
|
3 년 전 |
JustAnotherArchivist
|
788b25707d
|
Handle more domains and case variations
|
3 년 전 |
JustAnotherArchivist
|
36aa2e8259
|
Add archivebot-log-extract-ignores
|
3 년 전 |
JustAnotherArchivist
|
5b731fbde1
|
Fix compatibility with wpull 2.x
|
3 년 전 |
JustAnotherArchivist
|
743e0582ba
|
Fix confusing error message when lxml is not installed
|
3 년 전 |
JustAnotherArchivist
|
491a80a04b
|
Add warc-tiny scrape command for parsing HTTP responses using wpull and extracting links
|
3 년 전 |
JustAnotherArchivist
|
fd2728f1b8
|
Add archivebot-irccloud-paste
|
3 년 전 |
JustAnotherArchivist
|
4eff3c3eb3
|
Refactor, strip query/fragment
|
3 년 전 |
JustAnotherArchivist
|
821cacf626
|
Add --help
|
3 년 전 |
JustAnotherArchivist
|
caffebab2e
|
Add parent-urls
|
3 년 전 |
JustAnotherArchivist
|
77ec76bc04
|
Add --urls and --nodl options
|
3 년 전 |
JustAnotherArchivist
|
06cf71f73d
|
Fix gofile.io download: getServer is not used by the website anymore, and getUpload no longer returns the MD5
|
3 년 전 |
JustAnotherArchivist
|
bff1490871
|
Add github-list-repos
|
3 년 전 |
JustAnotherArchivist
|
bf695d63a3
|
Fix channel URLs
|
3 년 전 |
JustAnotherArchivist
|
dde4464555
|
Cover two more rare URLs
|
3 년 전 |
JustAnotherArchivist
|
bbf2d2c315
|
Be more lenient regarding slashes to catch things with collapsed URLs in paths etc.
|
3 년 전 |
JustAnotherArchivist
|
362f66eb26
|
Handle youtube-nocookie.com and fix removenonyt mode not recognising CC domains
|
3 년 전 |
JustAnotherArchivist
|
81e2b4b999
|
Refine patterns
|
3 년 전 |
JustAnotherArchivist
|
9974d4613c
|
Stop trying to rewrite patterns for percent encoding
|
3 년 전 |
JustAnotherArchivist
|
0ee83bc0f2
|
Refactor
|
3 년 전 |
JustAnotherArchivist
|
b66260ca94
|
Add youtube-extract
|
3 년 전 |
JustAnotherArchivist
|
d82dff8b71
|
Add ETA column
|
3 년 전 |
JustAnotherArchivist
|
01274e461a
|
Prevent constantly moving bytes around for better performance on large chunked records
|
3 년 전 |
JustAnotherArchivist
|
77d9f61de0
|
Colourise output
|
3 년 전 |
JustAnotherArchivist
|
6512669cfd
|
Refactor and compare file list as well
|
3 년 전 |
JustAnotherArchivist
|
8e0cb30d0a
|
Add atdash mode
|
3 년 전 |
JustAnotherArchivist
|
5fe595d71c
|
Record wrapper script in meta WARC as well
|
3 년 전 |
JustAnotherArchivist
|
c1def0e7a8
|
Fix S3_WITH_LIST_URLS being defined (but empty) when --with-list-urls is not used
|
3 년 전 |
JustAnotherArchivist
|
398cbfdcda
|
Add s3-bucket-list-qwarc, rewritten s3-bucket-list on top of qwarc
|
3 년 전 |
JustAnotherArchivist
|
80084e0d35
|
Another alternative and performance/memory comparison
|
3 년 전 |
JustAnotherArchivist
|
6a288a6338
|
Use grep instead, which is faster but uses more memory
|
3 년 전 |
JustAnotherArchivist
|
4d274e64e0
|
Add dedupe
|
3 년 전 |
JustAnotherArchivist
|
a4af8e6ca6
|
Add IE6 UA
|
3 년 전 |