regexp – Tin's Blog

刚才写了一个识别网站charset的正则，因为目前写一个网页抓取的工具，里面对中…

刚才写了一个识别网站charset的正则，因为目前写一个网页抓取的工具，里面对中文url做encoding的时候需要先识别页面的编码，可惜UrlEncoding没有强制使用UTF-8编码，真是烦人。下面是一个python下的正则表达是的字面文本。

r'<meta.*(?:(?:charset\s*=\s*["|\']?)|(?:charset.*content\s*=\s*["|\']\s*))([\d|\w|\-]+)[;|"|\'|\s]'