this post was submitted on 25 Jan 2025
6 points (100.0% liked)

Informatica (Italy e non Italy 😁)

1295 readers
14 users here now

Ecco finalmente la comunità italiana Lemmy dedicata all'informatica!

Questo è il luogo in cui condividere post sul mondo dell'informatica: notizie su hardware e software, cybersecurity, cyberwarfare, hacking, nuovi prodotti, data breach!

Ricordiamo che esistono anche alcune comunità che si occupano di argomenti più specifici, quali:

Regole della comunità:

🏳️‍🌈 chiediamo educazione e rispetto per gli altri

🎃 anche se ci chiamiamo "Informatica" non banniamo gli utenti a caso 😁

🚫 trolling, shitposting e molestie sono vietati

💲 è vietato superare il confine che separa l'informazione dalla pubblicità

🔊 evitiamo il clickbait e il sensazionalismo

📖 per il resto valgono le regole dell'istanza al link https://feddit.it/post/6

founded 2 years ago
MODERATORS
 

Dedicato agli admin: una trappola per scraper LLM

Genera pagine web infinite alimentando gli scraper di merda nonsense.

Avveleniamo i pozzi, ma selettivamente!

@informatica

https://hackaday.com/2025/01/23/trap-naughty-web-crawlers-in-digestive-juices-with-nepenthes/

you are viewing a single comment's thread
view the rest of the comments
[–] [email protected] 2 points 1 week ago (3 children)

@lgsp
Ma la domanda è: come distinguere il "legittimo" crawler di un motore di ricerca da quello di una LLM? Dubito facciano la cortesia di usare un loro User Agent…
@informatica

[–] [email protected] 1 points 6 days ago* (last edited 6 days ago) (1 children)

@paoloredaelli

Basandosi sul comportamento: se i crawler seguono quanto indicato da robots.txt, non cercando di accedere in parti del sito non consentite, non finiscono nella trappola infinita, altrimenti sì.

EDIT: mi sbagliavo un warning avvisa proprio che non c'è modo di distiguere buoni da cattivi

@informatica

https://zadzmo.org/code/nepenthes/

[–] [email protected] 1 points 6 days ago

@lgsp
Mi fatto stanno "avvelenando i pozzi".
@informatica

load more comments (1 replies)