Informatica (Italy e non Italy 😁)

1295 readers

16 users here now

Ecco finalmente la comunità italiana Lemmy dedicata all'informatica!

Questo è il luogo in cui condividere post sul mondo dell'informatica: notizie su hardware e software, cybersecurity, cyberwarfare, hacking, nuovi prodotti, data breach!

Ricordiamo che esistono anche alcune comunità che si occupano di argomenti più specifici, quali:

Le Alternative, dedicata alle alternative open source ai prodotti più diffusi
Etica Digitale, dedicata alle implicazioni etiche della tecnologia
Pirati Europei, dedicata al mondo dei pirati italiani ed europei
Che succede nel Fediverso, dedicata alle notizie sul fediverso
Devol, con le notizie sulle istanze del fediverso e i servizi di decentralizzazione del collettivo Devol
Lavoratori Tech, dedicata al tema del lavoro tecnologico
Videogiochi, dedicata al gaming
Retrogaming, per i videogiochi vintage
GNU/Linux Italia, dedicata nello specifico al mondo del pinguino

Regole della comunità:

🏳️‍🌈 chiediamo educazione e rispetto per gli altri

🎃 anche se ci chiamiamo "Informatica" non banniamo gli utenti a caso 😁

🚫 trolling, shitposting e molestie sono vietati

💲 è vietato superare il confine che separa l'informazione dalla pubblicità

🔊 evitiamo il clickbait e il sensazionalismo

📖 per il resto valgono le regole dell'istanza al link https://feddit.it/post/6

founded 2 years ago

MODERATORS

[email protected]

Dedicato agli admin: una trappola per scraper LLM (urbanists.social)

submitted 1 week ago by [email protected] to c/[email protected]

4 comments fedilink hide all child comments

Dedicato agli admin: una trappola per scraper LLM

Genera pagine web infinite alimentando gli scraper di merda nonsense.

Avveleniamo i pozzi, ma selettivamente!

@informatica

https://hackaday.com/2025/01/23/trap-naughty-web-crawlers-in-digestive-juices-with-nepenthes/

you are viewing a single comment's thread
view the rest of the comments

[–] [email protected] 2 points 1 week ago (2 children)

@lgsp
Ma la domanda è: come distinguere il "legittimo" crawler di un motore di ricerca da quello di una LLM? Dubito facciano la cortesia di usare un loro User Agent…
@informatica

[–] [email protected] 2 points 6 days ago* (last edited 6 days ago)

@paoloredaelli @lgsp @informatica
Una strategia potrebbe essere pubblicare il rallentatore senza link, non raggiungibile, l’unico riferimento è nel robots.txt con l’istruzione di NON indicizzare.

Chi accede ha letto robots.txt ignorandone il contenuto e allora sono un pò risorse sue, indipendentemente dal fatto che sia un LLM o un motore di ricerca…

Chi il file manco lo cerca la passa liscia, ma chi lo usa come ‘spunto’, ci casca: bicchiere mezzo pieno?

[–] [email protected] 1 points 6 days ago* (last edited 6 days ago) (1 children)

@paoloredaelli

Basandosi sul comportamento: se i crawler seguono quanto indicato da robots.txt, non cercando di accedere in parti del sito non consentite, non finiscono nella trappola infinita, altrimenti sì.

EDIT: mi sbagliavo un warning avvisa proprio che non c'è modo di distiguere buoni da cattivi

@informatica

https://zadzmo.org/code/nepenthes/

[–] [email protected] 1 points 6 days ago

@lgsp
Mi fatto stanno "avvelenando i pozzi".
@informatica