Content Moderation

DIA-HARM: Harmful Content Detection Robustness Across 50 English Dialects

DIA-HARM evaluates 16 harmful content detection models across 50 English dialects using 195K+ samples, revealing 1.4–3.6% F1 drops for fine-tuned models and up to 27% for zero-shot …

Jason Lucas

• Feb 1, 2026 • 1 min read

Adversarial ML

AI Robustness & Adversarial Safety

Investigating how dialect diversity, authorship obfuscation, and expert-level text editing expose critical vulnerabilities in content detection systems.

Feb 1, 2026 • 1 min read

No results found

Content Moderation

DIA-HARM: Harmful Content Detection Robustness Across 50 English Dialects

AI Robustness & Adversarial Safety