JustAnotherArchivist
|
429ac94689
|
Make it possible to override and remove headers
|
před 4 roky |
JustAnotherArchivist
|
e40be54578
|
Document verify_ssl parameter
|
před 4 roky |
JustAnotherArchivist
|
d3437bde19
|
Move default headers to qwarc.const
|
před 4 roky |
JustAnotherArchivist
|
1678075a89
|
Log traceback on exceptions raised from an item
|
před 4 roky |
JustAnotherArchivist
|
b1a1c03f7e
|
Handle STOP file and high memory usage before full disk to allow stopping while the disk is above the limit
|
před 4 roky |
JustAnotherArchivist
|
dd44d9b174
|
Adjust logging levels: log individual request failures only at WARNING and cancelled tasks at ERROR level
|
před 4 roky |
JustAnotherArchivist
|
91035d769c
|
Catch exceptions in Item.process and mark the items as errors instead of crashing
|
před 4 roky |
JustAnotherArchivist
|
69984765b3
|
Fix taskType typo silencing cancellation warnings
|
před 4 roky |
JustAnotherArchivist
|
c263ad0b03
|
Return ClientResponse object from fetch only if the retrieval was successful
If an exception was raised and caught, the object is still present in the history.
|
před 4 roky |
JustAnotherArchivist
|
cb0d11284e
|
Write only successful retrievals (i.e. ones that don't cause an exception) to WARC
|
před 4 roky |
JustAnotherArchivist
|
1214409a0b
|
Flush big responses to a temporary file instead of trying to keep everything in-memory
|
před 4 roky |
JustAnotherArchivist
|
08d96b37c5
|
Support deep/multiple inheritance from Item
|
před 4 roky |
JustAnotherArchivist
|
9d8de13775
|
Add Item.flush_subitems to flush the new subitems to the database while the item is still being processed
This also renames add_item to add_subitem for clarity.
|
před 4 roky |
JustAnotherArchivist
|
50b936b18c
|
Refactor QWARC class to keep relevant variables in instance attributes instead of local variables
|
před 4 roky |
JustAnotherArchivist
|
c5d8d93166
|
Remove stray whitespace
|
před 4 roky |
JustAnotherArchivist
|
7d53577522
|
Add parameter for disabling SSL/TLS certificate validation
|
před 4 roky |
JustAnotherArchivist
|
50d46ad51c
|
Use log filename in the target URI of the log resource record
|
před 4 roky |
JustAnotherArchivist
|
a5dfd5c805
|
Write spec file + its dependencies and command line to meta WARC
|
před 4 roky |
JustAnotherArchivist
|
d751844626
|
Fix starting another item before stopping on STOP file or memory limit exceedance
|
před 4 roky |
JustAnotherArchivist
|
2b0778f9b5
|
Remove leftovers from initial code rewrite
|
před 4 roky |
JustAnotherArchivist
|
ab22966fef
|
Add to log which item a message is coming from
|
před 4 roky |
JustAnotherArchivist
|
6fafd32685
|
Error when the retries are exceeded
|
před 4 roky |
JustAnotherArchivist
|
8647d6b396
|
Use f-strings instead of str.format
|
před 4 roky |
JustAnotherArchivist
|
5008e6e8cd
|
Deduplicate items
|
před 4 roky |
JustAnotherArchivist
|
46c95e2157
|
Disable decoding the response content
chardet can be very slow (https://github.com/chardet/chardet/issues/29 https://github.com/psf/requests/issues/2359) and the decoding may be unnecessary if it's binary content.
|
před 5 roky |
JustAnotherArchivist
|
ad22a2327a
|
Support adding headers to individual requests
|
před 5 roky |
JustAnotherArchivist
|
67076f964c
|
Add support for POST requests
|
před 5 roky |
JustAnotherArchivist
|
c1574a06c9
|
Fix sleep task type
|
před 5 roky |
JustAnotherArchivist
|
e0ca88c807
|
Fix reference to get_rss
|
před 5 roky |
JustAnotherArchivist
|
8a8935810d
|
Fix references to memory and disk space check methods
|
před 5 roky |
JustAnotherArchivist
|
be5673cfbf
|
Add record deduplication within a process
|
před 5 roky |
JustAnotherArchivist
|
e892a6b6a7
|
Initial commit
|
před 5 roky |