this post was submitted on 25 Jan 2025
6 points (100.0% liked)
Informatica (Italy e non Italy 😁)
1295 readers
16 users here now
Ecco finalmente la comunità italiana Lemmy dedicata all'informatica!
Questo è il luogo in cui condividere post sul mondo dell'informatica: notizie su hardware e software, cybersecurity, cyberwarfare, hacking, nuovi prodotti, data breach!
Ricordiamo che esistono anche alcune comunità che si occupano di argomenti più specifici, quali:
- Le Alternative, dedicata alle alternative open source ai prodotti più diffusi
- Etica Digitale, dedicata alle implicazioni etiche della tecnologia
- Pirati Europei, dedicata al mondo dei pirati italiani ed europei
- Che succede nel Fediverso, dedicata alle notizie sul fediverso
- Devol, con le notizie sulle istanze del fediverso e i servizi di decentralizzazione del collettivo Devol
- Lavoratori Tech, dedicata al tema del lavoro tecnologico
- Videogiochi, dedicata al gaming
- Retrogaming, per i videogiochi vintage
- GNU/Linux Italia, dedicata nello specifico al mondo del pinguino
Regole della comunità:
🏳️🌈 chiediamo educazione e rispetto per gli altri
🎃 anche se ci chiamiamo "Informatica" non banniamo gli utenti a caso 😁
🚫 trolling, shitposting e molestie sono vietati
💲 è vietato superare il confine che separa l'informazione dalla pubblicità
🔊 evitiamo il clickbait e il sensazionalismo
📖 per il resto valgono le regole dell'istanza al link https://feddit.it/post/6
founded 2 years ago
MODERATORS
you are viewing a single comment's thread
view the rest of the comments
view the rest of the comments
@lgsp
Ma la domanda è: come distinguere il "legittimo" crawler di un motore di ricerca da quello di una LLM? Dubito facciano la cortesia di usare un loro User Agent…
@informatica
@paoloredaelli @lgsp @informatica
Una strategia potrebbe essere pubblicare il rallentatore senza link, non raggiungibile, l’unico riferimento è nel robots.txt con l’istruzione di NON indicizzare.
Chi accede ha letto robots.txt ignorandone il contenuto e allora sono un pò risorse sue, indipendentemente dal fatto che sia un LLM o un motore di ricerca…
Chi il file manco lo cerca la passa liscia, ma chi lo usa come ‘spunto’, ci casca: bicchiere mezzo pieno?
@paoloredaelli
Basandosi sul comportamento: se i crawler seguono quanto indicato da robots.txt, non cercando di accedere in parti del sito non consentite, non finiscono nella trappola infinita, altrimenti sì.
EDIT: mi sbagliavo un warning avvisa proprio che non c'è modo di distiguere buoni da cattivi
@informatica
https://zadzmo.org/code/nepenthes/
@lgsp
Mi fatto stanno "avvelenando i pozzi".
@informatica