python爬虫抓取到的数据用网页打开时是乱码,怎么解决?写爬虫是经常会遇到这样的问题,这种问题很显然是编码问题,解决的方法其实也不难。你可以用下面的两个方法来解决你的编码问题:第一种是,通过浏览器打开你写的html之后,找到浏览器中的文字编码修改,将编码改为Unicode编码,即可修复
python爬虫抓取到的数据用网页打开时是乱码,怎么解决?
写爬虫是经常会遇到这样的问题,这种问题很显然是编码问题,解决的方法其实也不难。你可以用下面的两个方法来解决你的编码问题:第一种是,通过浏览器打开你写的html之后,找到浏览器中的文字编码修改,将编码改为Unicode编码,即可修复。第二种方法是修改你的前端代码:在你的代码output_html方法中,规定网页的文字编码即可查看网页源代码全是乱码,而页面显示正常,什么回事?
果页面显示正常,查看网页源代码发现是乱码,这个情况一般来说是浏览器的问题。比如,你用IE看源代码是乱码,但用firefox看源代码就不会是乱码。(搜索引擎又不是用浏览器看网页,更不是用IE。) 但乱码还是挺讨厌的,怎么办?这个根据很多网站的具体情况不同,处理办法也不同。原因一般是:1、UTF-8编码规范是将3个连续的字符计为单个字符,如果你在页面上加载了某一个长度不被3整除的字符串,那么页面就会出现乱码。
2、一些多语言系统,如Joomla、manbo、phpfag等,如果你把汉字写入源代码,就会开云体育出现源代码是乱码的现象(读:xiàng)。如果原来是正常的,你用了某个插件而导致出现这个情况,那么往往是那个插件中涉及到的提取字符长度问题。修改下即可。作者:夫唯@SEO培训 SEO修订1.0 2008-01-06SEOWHY,中国SEO在线培训第一品牌本文SEOWHY版权所有,未经批准转载必究。
本文链接:http://10.21taiyang.com/Scooters/20858764.html
抓取网页却[繁体:卻]得到乱码的问题转载请注明出处来源