Teknologi

198 readers

9 users here now

For debat og nyheder omkring teknologi af alle former.

founded 1 year ago

MODERATORS

[email protected]

IDLJ at det kgl. Bibliotek arkiverer det danske internet (netarkivet.dk)

submitted 1 year ago by [email protected] to c/[email protected]

3 comments fedilink hide all child comments

Virker da rimeligt sejt. Fra hvad jeg kan læse bruger de crawleren en udviklet af internet archive. Desværre er dataen kun tilgængelig for forskning men det er da rart at vide at tingene bliver bevaret for eftertiden. Det kan være @sortekanin kan tjekke om deres crawler har været forbi feddit.dk ;) den har user agenten

Mozilla / 5.0 (compatible; kb.dk_bot; heritrix / 3.4.0 + https: //www.kb.dk/netarkivindsamling) Firefox / 57

you are viewing a single comment's thread
view the rest of the comments

[–] [email protected] 4 points 1 year ago (2 children)

Jeg måtte i sin tid permanent blokere Netarkivets webcrawler; de brugte vist en anden den gang.

Crawleren respekterede ikke robots.txt-filen, som fortæller hvor crawlere og botter må bevæge sig hen på en hjemmeside.

De udførte nærmest et overbelastningsangreb mod min server, ved at sende en masse requests på kort tid til mine "tungeste" PHP-websider (dem som de ikke måtte besøge), i stedet for at sprede requestene ud over et længere tidsrum, som alle andre gjorde og gør.

Efter kommunikation med dem om problemet, var min opfattelse at de ikke anede hvad de foretog sig og var ligeglade med konsekvenserne. Forhåbentlig har de mere kompente folk på opgaven nu om stunder.

[–] [email protected] 3 points 1 year ago

Spændende. De ignorerer stadig robots.txt da den, deres udsagn, ville forhindre dem i at opsamle nok af siderne til at kunne gendanne dem ordentligt. Dog skriver de at de som udgangspunkt laver mindre crawls for at lure om siden er aktiv og hvis den er det så besøger de den oftere

[–] [email protected] 2 points 1 year ago* (last edited 1 year ago)

Efter kommunikation med dem om problemet, var min opfattelse at de ikke anede hvad de foretog sig

Det kan godt være det er en fordom fra min side men jeg tror desværre det er sådan i meget offentligt software/IT. Det offentlige betaler jo ikke nok til at få gode folk fra den branche ind.