91在线一级黄片|91视频在线观看18|成人夜间呦呦网站|91资源欧美日韩超碰|久久最新免费精品视频一区二区三区|国产探花视频在线观看|黄片真人免费三级片毛片|国产人无码视频在线|精品成人影视无码三区|久久视频爱久久免费精品

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
你不知道的Python裝飾器的一個妙用

好吧,我知道是大半夜……,但我還是覺得趕緊花上半個小時,把這最新的想法分享出來是值得的~直接進(jìn)入正題~

創(chuàng)新互聯(lián)成立與2013年,公司以成都網(wǎng)站設(shè)計、網(wǎng)站制作、系統(tǒng)開發(fā)、網(wǎng)絡(luò)推廣、文化傳媒、企業(yè)宣傳、平面廣告設(shè)計等為主要業(yè)務(wù),適用行業(yè)近百種。服務(wù)企業(yè)客戶成百上千,涉及國內(nèi)多個省份客戶。擁有多年網(wǎng)站建設(shè)開發(fā)經(jīng)驗(yàn)。為企業(yè)提供專業(yè)的網(wǎng)站建設(shè)、創(chuàng)意設(shè)計、宣傳推廣等服務(wù)。 通過專業(yè)的設(shè)計、獨(dú)特的風(fēng)格,為不同客戶提供各種風(fēng)格的特色服務(wù)。

我們來模擬一個場景,需要你去抓去一個頁面,然后這個頁面有好多url也要分別去抓取,而進(jìn)入這些子url后,還有數(shù)據(jù)要抓取。簡單點(diǎn),我們就按照三層來看,那我們的代碼就是如下:

 
 
 
  1. def func_top(url):  
  2.     data_dict= {}  
  3.    
  4.     #在頁面上獲取到子url  
  5.     sub_urls = xxxx  
  6.    
  7.     data_list = []  
  8.     for it in sub_urls:  
  9.         data_list.append(func_sub(it))  
  10.    
  11.     data_dict['data'] = data_list  
  12.    
  13.     return data_dict  
  14.    
  15. def func_sub(url):  
  16.     data_dict= {}  
  17.    
  18.     #在頁面上獲取到子url  
  19.     bottom_urls = xxxx  
  20.    
  21.     data_list = []  
  22.     for it in bottom_urls:  
  23.         data_list.append(func_bottom(it))  
  24.    
  25.     data_dict['data'] = data_list  
  26.    
  27.     return data_dict  
  28.    
  29. def func_bottom(url):  
  30.     #獲取數(shù)據(jù)  
  31.     data = xxxx  
  32.     return data 

func_top是上層頁面的處理函數(shù),func_sub是子頁面的處理函數(shù),func_bottom是最深層頁面的處理函數(shù),func_top會在取到子頁面url后遍歷調(diào)用func_sub,func_sub也是同樣。

如果正常情況下,這樣確實(shí)已經(jīng)滿足需求了,但是偏偏這個你要抓取的網(wǎng)站可能極不穩(wěn)定,經(jīng)常鏈接不上,導(dǎo)致數(shù)據(jù)拿不到。

于是這個時候你有兩個選擇:

◆ 1. 遇到錯誤就停止,之后重新從斷掉的位置開始重新跑

◆ 2. 遇到錯誤繼續(xù),但是要在之后重新跑一遍,這個時候已經(jīng)有的數(shù)據(jù)不希望再去網(wǎng)站拉一次,而只去拉沒有取到的數(shù)據(jù)

對第一種方案基本無法實(shí)現(xiàn),因?yàn)槿绻麆e人網(wǎng)站的url調(diào)整順序,那么你記錄的位置就無效了。那么只有第二種方案,說白了,就是要把已經(jīng)拿到的數(shù)據(jù)cache下來,等需要的時候,直接從cache里面取。

OK,目標(biāo)已經(jīng)有了,怎么實(shí)現(xiàn)呢?

如果是在C++中的,這是個很麻煩的事情,而且寫出來的代碼必定丑陋無比,然而慶幸的是,我們用的是Python,而Python對函數(shù)有裝飾器。

所以實(shí)現(xiàn)方案也就有了:

定義一個裝飾器,如果之前取到數(shù)據(jù),就直接取cache的數(shù)據(jù);如果之前沒有取到,那么就從網(wǎng)站拉取,并且存入cache中.

代碼如下:

 
 
 
  1. def get_dump_data(dir_name, url):  
  2.     m = hashlib.md5(url)  
  3.     filename = m.hexdigest()  
  4.     full_file_name = 'dumps/%s/%s' % (dir_name,filename)  
  5.    
  6.     if os.path.isfile(full_file_name):  
  7.         return eval(file(full_file_name,'r').read())  
  8.     else:  
  9.         return None 
  10.    
  11.    
  12. def set_dump_data(dir_name, url, data):  
  13.     if not os.path.isdir('dumps/'+dir_name):  
  14.         os.makedirs('dumps/'+dir_name)  
  15.    
  16.     m = hashlib.md5(url)  
  17.     filename = m.hexdigest()  
  18.     full_file_name = 'dumps/%s/%s' % (dir_name,filename)  
  19.    
  20.     f = file(full_file_name, 'w+')  
  21.     f.write(repr(data))  
  22.     f.close()  
  23.    
  24.    
  25. def deco_dump_data(func):  
  26.     def func_wrapper(url):  
  27.         data = get_dump_data(func.__name__,url)  
  28.         if data is not None:  
  29.             return data  
  30.    
  31.         data = func(url)  
  32.         if data is not None:  
  33.             set_dump_data(func.__name__,url,data)  
  34.         return data  
  35.    
  36.     return func_wrapper 

然后,我們只需要在每個func_top,func_sub,func_bottom都加上deco_dump_data這個裝飾器即可~~

搞定!這樣做最大的好處在于,因?yàn)閠op,sub,bottom,每一層都會dump數(shù)據(jù),所以比如某個sub層數(shù)據(jù)dump之后,是根本不會走到他所對應(yīng)的bottom層的,減少了大量的開銷!

OK,就這樣~ 人生苦短,我用Python!

原文鏈接:http://www.vimer.cn/2011/04/python%E8%A3%85%E9%A5%B0%E5%99%A8%E7%9A%84%E4%B8%80%E4%B8%AA%E5%A6%99%E7%94%A8.html


當(dāng)前名稱:你不知道的Python裝飾器的一個妙用
鏈接地址:http://m.jiaoqi3.com/article/cdedhie.html