又一个script的总结
原创文章,采用CC协议发布,转载请注明: 转载自canX.me
本文链接地址: 又一个script的总结
– — – — – — – — – — – — – — – — – — – — – — – — – — – — – — – — – –
被分到给video.edu.cn做助管,其实就是成天扛着摄像机到处录讲座
讲座信息的来源是北邮内网的信息发布栏,那个略带强迫症的学长教导我们,要养成看通知的习惯…
然后就有了这个script(代码不贴了,很丑,也没有普适性,说了是“总结”的嘛)
主要功能就是从发布栏上按关键字提取讲座信息,然后邮件发给自己和其它助管…
1.关键字
观察了下学术办的讲座通知格式,取了“讲座通知”和“报告通知”两个词,而不单单是“讲座”,否则会出现类似“迪斯尼高级画家范新林先生讲座成功结束!”这种杂质
2.encode()和decode()
处理中文始终是件很烦的事情,不过终于有点感觉了
在py文件开头用coding定义了编码是utf8,然后那个网站的编码是gb18030,所以用urlopen()拿回来的数据编码格式就是gb18030的,如果要在Mac OS X下显示,就要以gb18030的格式decode()成utf8的,而在py文件里输入的文字,要想跟网站数据做比较,就要encode()成gb18030了
简单来说,就一句话,encode()和decode()都是相对于utf8这个默认编码而言的
3.正则匹配中文
范围是\x80-\xff,貌似也包括标点符号和一些奇奇怪怪的符号
4.html2text和sendemail
从网上找了两段现成的代码,不要重做轮子嘛:) 当然都改了一下来适应我的需求
5.定时任务
Mac OS X自带cron,搜了一下用法,也误入歧途过,写这个脚本花时间最多的居然是在这个上面- -b…
不晓得为神马,crontab这个命令是不好使的(系统10.7.2)
然后ps -A看了下cron确实在后台运行着,继续搜,发现应该编辑/private/etc/crontab或者/etc/crontab(这俩是一个文件),文件格式是:
#min hour day month day/week user command 0 11 * * 1-5 can /Users/can/Desktop/web/run.sh
上面配置的意思是,每周1到周5的11点0分,以can的名义运行run.sh这个脚本
cron还有一些其它的语法,相当灵活
还没有评论