2012年10月2日星期二

小技巧:如何下载 YouTube 字幕

youtube_caption

现在很多 YouTube 视频都配有非常棒软字幕,我们在做视频的汉化时,这个软字幕是非常好的原始素材。其实 YouTube 的这些字幕是可以下载的,下载地址是 http://video.google.com/timedtext?lang=en&v=VIDEO_ID 其中的 VIDEO_ID 就是 YouTube 播放页面 watch?v= 后面的部分。举例来说这个 Eric Schmidt 在 TechCrunch Disrupt 上的讲话视频,播放页面是  http://www.youtube.com/watch?v=G7djoQfncRw ,则字幕下载地址就是 http://video.google.com/timedtext?lang=en&v=G7djoQfncRw

字幕是以 xml 格式存储的,我们可以通过查看页面源代码,将源代码贴到这个工具里面,并点击 Go! 按钮,即可得到纯文本的字幕脚本了。其实我们仔细观察 xml 文件就可以发现,字幕文本对应的时间轴也保存在 xml 标记中,用 python 之类的脚本语言应该非常容易将这些 xml 字幕文件直接转换为 srt 或者其他格式的通用字幕文件,如果你制作了类似的工具或者发现哪里有类似的工具下载,欢迎在留言中告诉我们。

UPDATE:感谢读者 xslidian ,果然已经有类似的 YouTube xml –> SRT 的工具了,点此进入。另外读者 我知道 还给我们推荐了另外一个可以通过输入视频播放地址直接下载 YouTube 字幕的网站,点此进入

via GOS




Related posts

coded by nessus

没有评论:

发表评论