1樓:老夭來了
其實你可以用現成的框架,比如scrapy,已經幫你處理了編碼的問題。
說明是gbk編碼。
#str是你獲取到的頁面內容
str.decode("gbk")
這樣生成的就是python內部編碼unicode了,如果你再想編碼成utf8,可以:
str.encode("utf8")
如果解決了您的問題請採納!
如果未解決請繼續追問!
2樓:可轉債量化分析
我剛學那會也是,有些編碼很麻煩。不過無非試多幾次。
這段時間在用python處理網頁抓取這塊,網際網路很多網頁的編碼格式都不一樣,大體上是gbk,gb2312,utf-8幾種。我們在獲取網頁的的資料後,先要對網頁的編碼進行判斷,才能把抓取的內容的編碼統一轉換為我們能夠處理的編碼。比如beautiful soup內部的編碼就是unicode的編碼。
下面介紹兩種python 判斷網頁編碼的方法:
2 import chardet 你需要安裝一下chardet第3方模組判斷編碼
怎麼解決中文網頁html中,編碼不一致問題(python,beautifulsoup)
3樓:
"同一篇html中,部分用utf-8,部分用了gb2312.."
說一句粗話,文雅人請跳過後續答案:
真他媽的**** verdammt! ...
python爬蟲抓下來的網頁,中間的中文亂碼怎麼解決
4樓:龍氏風采
對於python的中文編碼問題可以參考下面的帖子
對於網頁的中文亂碼,建立使用requests模組代替urllib\urllib2
requests的content方法,對中文編碼,支援比較好,基本不會出現亂碼。
req=requests.get(url,cookies=mecookies)
print req.content
具體用法,參見下面兩個帖子,較詳細:
5樓:匿名使用者
沒用的,可以刪了,刪了不妨礙網頁,就可以啊
如何學python,學Python應該怎麼學
python資料分析的門檻較低,如果是python零基礎開始學,學習的步驟大概是python基礎 資料採集 資料處理 資料分析 資料視覺化。首先學習一點python基礎的知識,python語言基礎,函式,檔案操作,物件導向,異常處理,模組和包,linux系統使用,mysql資料庫等 其次就可以學習一...
學python有前途麼,學Python有前途麼?
python是現在比較流行的語言,現在市場上的需求量是比較高的,python就業崗位也是比較多的,在多個領域都得到了很好的應用,所以說python發展還是很不錯的,只要你學的好,前途不可限量。這個語言肯定是不錯的,算的上是近幾年比較火的語言,加上國家的支援,人工智慧時代的到來,這個語言不可或缺。像培...
python程式設計 中文 出現亂碼問題
這是因為idle中使用gbk編碼,是ascii擴充套件字符集。import sys sys.getdefaultencoding ascii 解決方法 在idle中執行的時候 去掉字串前面的u字元,也不要加 coding這一行。先import sys,然後reload sys 再使用sys.setd...