mastodon.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
The original server operated by the Mastodon gGmbH non-profit

Administered by:

Server stats:

343K
active users

#scraping

10 posts9 participants0 posts today

I've set up my new #inkscape website AI bot trap. It works by giving everyone a chance to not fall into it.

An anchor link that says "I am a bot" and links to /P3W-451/{datetime}/ it's got a fixed position at top -100px so should never be seen

The robots.txt says "Disallow: /P3W-451/" so if you were reading the robots, you'd know.

Then #nginx logs the requests to a log of their ip-addresses and browser strings and sends them a 301 redirect to google.com

#ai #Scraping

1/2

Replied in thread

@nimi @papuass @stefan @freediverx yeah except you can't force bad actors to use your commercial API if they still have an open route in, that basically cost them next to nothing. It really doesn't matter isn't elegant. It works, it's cheap. It's basically an arms race that were never designed to wage. My only hope is that the spirit will reorganise itself along those faultlines and fight the good fight.

Non ci sarebbero carte di credito e account di autenticazione, ma indirizzi, nomi, cognomi, numeri di telefono e ordini. Una questione gravissima, che riguarda circa 7 milioni di clienti dal 2008.

dday.it/redazione/52522/hanno-

DDay.it · Hanno bucato ePrice: i dati di 6.8 milioni di clienti in venditaBy Roberto Pezzali

Rickroll w repo i bomba w (niezbyt) głębokim ukryciu

Podatności aplikacji webowych miewają różną genezę. Mogą być niezawinione – błędom typu 0-day nie da się skutecznie zapobiec. Mogą być w pełni zawinione – gdy w trzeciej dekadzie XXI wieku programista pisze kod podatny na SQL injection. Mogą być też wynikiem roztargnienia lub nieuwagi – np. wtedy, gdy na świat wystawione zostanie repozytorium kodu, w którym przechowywana jest owa aplikacja. Nieuprawniony dostęp do takiego repozytorium może oznaczać przejęcie kontroli nad całą webaplikacją – gdy w kodzie źródłowym albo plikach konfiguracyjnych znajdziemy hasło do bazy danych, klucze prywatne do usług chmurowych albo plik tekstowy z hasłem administratora. Podobnie stanie się, gdy operator zapisze kopię bezpieczeństwa do pliku backup.zip zlokalizowanego w głównym katalogu witryny.
Ja postanowiłem zażartować sobie z osób, które szukają takich podatności.
Autorem artykułu jest Tomasz Zieliński, autor szkolenia z automatyzacji pobierania danych z internetu (scrapowanie.pl), w wolnych chwilach prowadzący bloga Informatyk Zakładowy (informatykzakladowy.pl). Za publikację nie otrzymaliśmy wynagrodzenia, ale otrzymamy świadczenie barterowe.
Trojański backup.zip, który wybucha
Z kopią bezpieczeństwa było łatwo – plik informatykzakladowy.pl/backup. to tak zwana ZIP-bomba. Jest to archiwum plików spreparowane w taki sposób, aby zawartość po rozpakowaniu zajmowała możliwie najwięcej miejsca. Skorzystałem z wariantu opisanego na stronie bamsoftware.com – choć sam plik ZIP ma niespełna 10 megabajtów, to do zapisania zdekompresowanej zawartości potrzeba 281 terabajtów. Dla porównania – typowy dysk twardy w domowym komputerze ma nie więcej niż dwa terabajty.
W dzisiejszych czasach ZIP-bomby są raczej [...]

#ARTYKUŁSPONSOROWANY #Śmieszne #Git #Repozytoria #Scraping #Scrapowanie #Wycieki

niebezpiecznik.pl/post/rickrol

Replied in thread

@susankayequinn Here's another article by @brianmerchant : bloodinthemachine.com/p/openai
"AI giants are indeed eating away at the livelihoods and dignity of working artists, and this devouring, appropriating, and automation of the production of art, of culture, at a scale truly never seen before, should not be underestimated as a menace"

Blood in the Machine · OpenAI's Studio Ghibli meme factory is an insult to art itselfBy Brian Merchant

"GPT-4o is partly (aside from some licensed content) a product of a massive scrape of the Internet without regard to copyright or consent from artists ... GPT-4o's image generation model (and the technology behind it, once open source) feels like it further erodes trust in remotely produced media ... Everyone needs media literacy skills ..." arstechnica.com/ai/2025/03/ope via @arstechnica

Ars Technica · OpenAI’s new AI image generator is potent and bound to provokeBy Benj Edwards
Continued thread

another part of my day job involves working around systems designed to prevent mass AI-driven scraping, because humans and well-behaved query scripts are accidentally caught up in all the war-of-the-scrapers, because Cloudflare etc are offering what seems to management to be a magic bullet, and putting the bluntest of tools in front of anywhere that needs to be public, including APIs.
#scraping #api

Part of my day job involves using APIs to retrieve public data from third party public websites, some of which were never designed to publish raw data, so I tread lightly, no more than a human-driven query.
Part of my day job is preventing third party machines from hammering servers I run by incessant mass scraping - hundreds of thousands of ridiculous requests humans would never do or want (typically that's AI-driven scraping that doesn't abide by robots.txt).
I feel conflicted.
#scraping #api

Thoughts: AI corps scraping data

The corporations assert that they can utilize public data without incurring any costs, citing fair use as their justification.

To address this issue, we should implement a law that compels corporations claiming fair use as a defense to make all their process data publicly available, free of charge. This would ensure that the scraped data, as well as data derived from the freely available data, is accessible to the public.
#AI #FairUse #Scraping #WebScraping