你不知道的 Python装饰器的一个妙用_程序开发

你不知道的 Python装饰器的一个妙用

创始人

2024-07-24 21:40:50

0次

好吧，我知道是大半夜……，但我还是觉得赶紧花上半个小时，把这最新的想法分享出来是值得的~直接进入正题~

我们来模拟一个场景，需要你去抓去一个页面，然后这个页面有好多url也要分别去抓取，而进入这些子url后，还有数据要抓取。简单点，我们就按照三层来看，那我们的代码就是如下：

def func_top(url):  
    data_dict= {}  
   
    #在页面上获取到子url  
    sub_urls = xxxx  
   
    data_list = []  
    for it in sub_urls:  
        data_list.append(func_sub(it))  
   
    data_dict['data'] = data_list  
   
    return data_dict  
   
def func_sub(url):  
    data_dict= {}  
   
    #在页面上获取到子url  
    bottom_urls = xxxx  
   
    data_list = []  
    for it in bottom_urls:  
        data_list.append(func_bottom(it))  
   
    data_dict['data'] = data_list  
   
    return data_dict  
   
def func_bottom(url):  
    #获取数据  
    data = xxxx  
    return data

func_top是上层页面的处理函数，func_sub是子页面的处理函数，func_bottom是最深层页面的处理函数，func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。

如果正常情况下，这样确实已经满足需求了，但是偏偏这个你要抓取的网站可能极不稳定，经常链接不上，导致数据拿不到。

于是这个时候你有两个选择:

◆ 1. 遇到错误就停止，之后重新从断掉的位置开始重新跑

◆ 2. 遇到错误继续，但是要在之后重新跑一遍，这个时候已经有的数据不希望再去网站拉一次，而只去拉没有取到的数据

对第一种方案基本无法实现，因为如果别人网站的url调整顺序，那么你记录的位置就无效了。那么只有第二种方案，说白了，就是要把已经拿到的数据cache下来，等需要的时候，直接从cache里面取。

OK，目标已经有了，怎么实现呢?

如果是在C++中的，这是个很麻烦的事情，而且写出来的代码必定丑陋无比，然而庆幸的是，我们用的是Python，而Python对函数有装饰器。

所以实现方案也就有了:

定义一个装饰器，如果之前取到数据，就直接取cache的数据;如果之前没有取到，那么就从网站拉取，并且存入cache中.

代码如下:

def get_dump_data(dir_name, url):  
    m = hashlib.md5(url)  
    filename = m.hexdigest()  
    full_file_name = 'dumps/%s/%s' % (dir_name,filename)  
   
    if os.path.isfile(full_file_name):  
        return eval(file(full_file_name,'r').read())  
    else:  
        return None 
   
   
def set_dump_data(dir_name, url, data):  
    if not os.path.isdir('dumps/'+dir_name):  
        os.makedirs('dumps/'+dir_name)  
   
    m = hashlib.md5(url)  
    filename = m.hexdigest()  
    full_file_name = 'dumps/%s/%s' % (dir_name,filename)  
   
    f = file(full_file_name, 'w+')  
    f.write(repr(data))  
    f.close()  
   
   
def deco_dump_data(func):  
    def func_wrapper(url):  
        data = get_dump_data(func.__name__,url)  
        if data is not None:  
            return data  
   
        data = func(url)  
        if data is not None:  
            set_dump_data(func.__name__,url,data)  
        return data  
   
    return func_wrapper

然后，我们只需要在每个func_top,func_sub,func_bottom都加上deco_dump_data这个装饰器即可~~

搞定!这样做最大的好处在于，因为top,sub,bottom，每一层都会dump数据，所以比如某个sub层数据dump之后，是根本不会走到他所对应的bottom层的，减少了大量的开销!

OK，就这样~ 人生苦短，我用Python!

原文链接：http://www.vimer.cn/2011/04/python%E8%A3%85%E9%A5%B0%E5%99%A8%E7%9A%84%E4%B8%80%E4%B8%AA%E5%A6%99%E7%94%A8.html

【编辑推荐】

Python编辑利器:PyCharm初探
浅析Python中的列表解析和生成表达式
自制Python函数帮助查询小工具
巧用IronPython做更灵活的网页爬虫
一个Python程序员的进化

上一篇：视觉中国的NoSQL之路：从MySQL到MongoDB

下一篇：名为LizaMoon的SQL注入攻击正在席卷全球

你不知道的 Python装饰器的一个妙用

相关内容

热门资讯