Content-Type header declares a wrong charset.
Your scraper must detect the actual encoding and decode the content correctly.
| Declared charset (header) | windows-1252 |
|---|---|
| Actual encoding (body) | utf-8 |
| Scenario | Chinese, Arabic, French, Japanese text as UTF-8 but header declares charset=windows-1252 |
中文测试:这是一个编码测试页面。北京是中国的首都。
العربية: هذه صفحة اختبار الترميز. القاهرة عاصمة مصر.
Français: Les élèves étudient à l'université de Zürich.
日本語: エンコーディングテストページです。東京は日本の首都です。
This iframe is served as ISO-8859-1 bytes with header charset=utf-8 — a different mismatch than the main page.