本站首页    管理页面    写新日志    退出                   长夜慢慢兮,心越来越远!


«August 2025»
12
3456789
10111213141516
17181920212223
24252627282930
31

最新日志

删除Windows的服务
下载日本新闻的脚本
怎样快速得到一批手机号码的归宿地
快速生成随机密码
python 命令行小技巧
maven dbunit 常用命令一览
MinGW-GCC 如何编译JNI程序
Oracle数据库导入数据方法之一
MinGW-GCC 如何编写win32应
如何为应用程序创建图标

最近的评论

回复:GCC静态链接与动态链接
回复:怎样快速得到一批手机号码的归宿地
回复:MinGW-GCC 如何编译JNI
回复:GCC静态链接与动态链接
回复:MinGW-GCC 如何编译JNI
回复:GCC静态链接与动态链接
回复:GCC静态链接与动态链接
回复:GCC静态链接与动态链接
回复:GCC静态链接与动态链接

连接





[PYTHON]下载日本新闻的脚本
冥思者 发表于 2006/5/24 9:45:24

最近为了练习日语听力,经常去news24.jp听在线视听新闻,为了以后能反复的听,于是写了个脚本将新闻的视频和台词下载了下来。前提:安装python和flashget1:登陆该网站将各段新闻的链接url拷贝下来,保存在文本文件里面,每行一个url,例如 http://www1.ntv.co.jp/news/wmtram/news.cgi?movie=060523007.cgi.300k.58850.html2:下载的脚本命令行参数是第一步保存url的文本文件的名字import os, rehtml_prev = 'http://www.ntv.co.jp/news/html/%s.html'wmv_prev = 'mms://wmt-od.stream.ne.jp/ntv/news/%s.wmv'fg = r'call "C:\Program Files\FlashGet\flashget.exe"'target = r'D:\download\japanese\news\%s're_news = re.compile(r'.*movie=(\d+)\.cgi\.(\d+k)\.(\d+)\.html', re.I)def download(downloadfile):    lines = open(downloadfile, 'r').readlines()    files = []    for line in lines:        m = re_news.match(line)        if m:            files.append([m.group(1) + '_' + m.group(2), m.group(3)])    for wmv,html in files:        os.system(fg + ' ' + wmv_prev % wmv + ' ' + target % wmv[:6])        os.system(fg + ' ' + html_prev % html + ' ' + target % wmv[:6])if __name__ == '__main__':    import sys    if len(sys.argv) < 2:        print 'Usage: ', __file__, '<download file>'        sys.exit(0)    download(sys.argv[1])3:下载完成了之后,因为wmv文件和其对应的html台词文件名字不一致,所以再处理一下,你可以简单的将html台词文件和其wmv文件改得一致,但是我更喜欢将html台词文件里面的台词取出来另存为文本文件。命令行同上,仍然是刚才那个保存url的文本文件import rehtml_prev = '%s/%s.html're_html = re.compile('.*<span class="shuyo_1">(.*?)</span>.*<br>(.*)<br>.*<br>.*<span class="shuyo_2">(.*?)</span>', re.I | re.S)re_news = re.compile(r'.*movie=(\d+)\.cgi\.(\d+k)\.(\d+)\.html', re.I)def processfile(downloadfile):    lines = open(downloadfile, 'r').readlines()    for line in lines:        m = re_news.match(line)        if m:            process(m.group(3), m.group(1) + '_' + m.group(2))def process(html, wmv):    f = open(html_prev % (wmv[0:6], html), 'r')    content = f.read()    f.close()    m = re_html.match(content)    if m:        open(wmv[:6] + '/' + wmv + '.txt', 'w').write(m.group(1).strip() + '\n' + m.group(2).strip() + '\n\n' + m.group(3).strip())if __name__ == '__main__':    import sys    if len(sys.argv) < 2:        print 'Usage: ', __file__, '<download file>'        sys.exit(0)    processfile(sys.argv[1])4:到这一步没啥说的了,开始视听吧。

阅读全文(3244) | 回复(-1) | 编辑 | 精华


发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



公告

暂无公告...

专题

首页(13)
SHELL(1)
随笔(1)
C/C++(4)
JAVA(1)
果米箱(2)
PYTHON(4)

留言

签写新留言

主公的东西写的很好怎么不写了?我会常常来

统计

blog名称:长夜慢慢兮,心越来越远!
日志总数:13
评论数量:48
留言数量:1
访问次数:154278
建立时间:2006年3月3日

 

 

 


站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.016 second(s), page refreshed 144757590 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号