JustAnotherArchivist
fed66542fa
Support python3 in any directory instead of just /usr/bin
před 4 roky
JustAnotherArchivist
5982e131a4
Stop gracefully when encountering a SIGPIPE
před 4 roky
JustAnotherArchivist
c13a1150df
Add support for WARC/1.1
před 4 roky
JustAnotherArchivist
376cde7b8c
Fix broken block digest calculation on malformed HTTP responses
před 4 roky
JustAnotherArchivist
b121cbd958
Write all log messages to stderr
před 4 roky
JustAnotherArchivist
ed1270d988
Add support for upper-cased chunk lengths
před 4 roky
JustAnotherArchivist
d4826abde2
Add record ID to log messages
před 4 roky
JustAnotherArchivist
4925a912c0
Add youtube-filter-autogen-channels
před 4 roky
JustAnotherArchivist
9b8f223776
Add wiki-sections-sort
před 4 roky
JustAnotherArchivist
552a4147c2
Fix not returning complete body for non-chunked responses
Leftover from debugging
před 4 roky
JustAnotherArchivist
0dc0de6b50
Add support for lists
před 4 roky
JustAnotherArchivist
9d344df8c6
+x
před 4 roky
JustAnotherArchivist
f6a7cbfc70
Fix --with-list-urls help message
před 4 roky
JustAnotherArchivist
9743aa7c35
Add s3-bucket-list
před 4 roky
JustAnotherArchivist
91adce786f
Add YouTube normalisation script
před 4 roky
JustAnotherArchivist
5ca90c3b7d
Update tmux session commands
před 4 roky
JustAnotherArchivist
679923d37d
Add support for Twitter hashtag extraction
před 4 roky
JustAnotherArchivist
663383830c
Add support for lists
před 4 roky
JustAnotherArchivist
d85d142def
Handle parameters on Twitter URLs
před 5 roky
JustAnotherArchivist
5984565417
Handle Twitter URLs with trailing slash
před 5 roky
JustAnotherArchivist
8647ccaa8f
Support subdomain-less Facebook URLs
před 5 roky
JustAnotherArchivist
66ec0c93c4
Handle more Facebook URLs
před 5 roky
JustAnotherArchivist
baa8a566bd
Add script for scraping MEP links from europarl.europa.eu
před 5 roky
JustAnotherArchivist
c2413b2c4f
Add ArchiveBot wiki list helper
před 5 roky
JustAnotherArchivist
72818019bc
Extract external links from Twitter
před 5 roky
JustAnotherArchivist
b262d893da
Silence by default
před 5 roky
JustAnotherArchivist
6fb9587a2b
More flexible normalisation
před 5 roky
JustAnotherArchivist
06be216f4c
Print Instagram ignore immediately after upload instead of at the end
před 5 roky
JustAnotherArchivist
1be4ed829b
Add helper for AB/chromebot-ing YouTube channels and users
před 5 roky
JustAnotherArchivist
2a7a4ea6dc
Fix HTTPS handling
před 5 roky
JustAnotherArchivist
a812cb5fc2
More snscrape helper tools
před 5 roky
JustAnotherArchivist
3ee3ffc340
Generate commands for Blogspot
před 5 roky
JustAnotherArchivist
5090a8ad02
Enumerate users on a Mastodon instance
před 5 roky
JustAnotherArchivist
0000d8ffd9
Add script to queue derive on IA
před 5 roky
JustAnotherArchivist
6dc711c54e
Further helper scripts for snscrape: normalising usernames and extracting them from a list of URLs
před 5 roky
JustAnotherArchivist
e3a37455ba
Add uniqify
před 5 roky
JustAnotherArchivist
321067819c
Proper script for tracking size of uploaded data
před 5 roky
JustAnotherArchivist
5c654cb16b
Split out size formatting
před 5 roky
JustAnotherArchivist
de2cdc0aae
curl with ArchiveBot UA
před 5 roky
JustAnotherArchivist
89ccd68b59
Helper tools for snscrape and the wiki pages
před 5 roky
JustAnotherArchivist
f2e836d2e9
Add support for differently formatted digests
před 5 roky
JustAnotherArchivist
94c4f76570
Fix crash when a digest is missing from a record
před 5 roky
JustAnotherArchivist
ef78a3318c
Colour only the header field names but not the values
před 5 roky
JustAnotherArchivist
9ce4653094
Document colouring and usage
před 5 roky
JustAnotherArchivist
e7c5d82254
Coloured WARCs?!
před 5 roky
JustAnotherArchivist
70b413f5c1
Better events: include raw WARC header data and separate HTTP requests into headers and body
před 5 roky
JustAnotherArchivist
641bc7a207
Fix infinite loop at end of WARC
před 5 roky
JustAnotherArchivist
a700e8e2fe
Add tcp-closer command
před 5 roky
JustAnotherArchivist
859c75a591
Add tool for WARC verification and extraction
před 5 roky
JustAnotherArchivist
e867a2327f
Replace urlencoded @ symbol
The fix for https://github.com/dutchcoders/transfer.sh/issues/215 led to @ being encoded as %40 in filenames in the URL returned, which is awkward when working with social media scrapes since ArchiveBot normalises it to @ again.
před 5 roky