Bad Encoding Scenario

Select scenario:
Cyrillic German Mixed CP1252 Latin-1 Invalid UTF-8
Disable iframe
Challenge: The HTTP Content-Type header declares a wrong charset. Your scraper must detect the actual encoding and decode the content correctly.
Declared charset (header)windows-1252
Actual encoding (body)utf-8
ScenarioChinese, Arabic, French, Japanese text as UTF-8 but header declares charset=windows-1252

Mixed Multilingual Content

中文测试:这是一个编码测试页面。北京是中国的首都。

العربية: هذه صفحة اختبار الترميز. القاهرة عاصمة مصر.

Français: Les élèves étudient à l'université de Zürich.

日本語: エンコーディングテストページです。東京は日本の首都です。

Embedded iframe (different encoding)

This iframe is served as ISO-8859-1 bytes with header charset=utf-8 — a different mismatch than the main page.


All scenarios | Home