如何获取视频网站的信息(土豆例子)

简介: 现在不少的视频网站都提供转载视频的功能 我之前写过一篇CHSNS#中通过youku的视频网址获取视频截图及视频信息,虽然可能地址已经改了但却未涉及土豆网,其实土豆获取的方法与优酷是差不多的。 http://www.

现在不少的视频网站都提供转载视频的功能

我之前写过一篇CHSNS#中通过youku的视频网址获取视频截图及视频信息,虽然可能地址已经改了但却未涉及土豆网,其实土豆获取的方法与优酷是差不多的。

http://www.tudou.com/

其中的一个视频

http://www.tudou.com/programs/view/OiokB0Rohag/

我选择贴到博客,然后复制Flash播放器地址

image

 

这样我们使用这个地址(http://www.tudou.com/v/OiokB0Rohag)访问时就可以看到单个 的Flash

我们在使用火狐打开页面前打开FireBug,就可以分析到加载Flash前加载了一些数据。

我们可以看到其页面跳转到了http://www.tudou.com/player/outside/player_outside.swf?iid=42471321&default_skin=http://js.tudouui.com/bin/player2/outside/Skin_outside_17.swf&autostart=false&rurl=

而其中42471321应该就是视频的Id

在程序中,这个我们可以通过一个简单的WebRequest来读取。到而重定向的值一般在Header的Location中。

在播放视频后我们查看获取的文件看到有一个地址类似下面这个,(在程序中我们直接获取即可,nocatch只与FlV的HashKey有关,我们要获取的是基本信息可以不必管)

http://v2.tudou.com/v2/cdn?noCatch=22538&safekey=YouNeverKnowThat&refurl=&id=42471321

的文件,它的内容为:

<v time="279930" vi="1" ch="99" nls="0" title="&#20339;&#26408;&#26031;&#22823;&#23398;&#26657;&#22253;&#39118;&#26223;" code="OiokB0Rohag" enable="1" logo="0" wt="0" band="0"><a><f w="50" h="0" sha1="36389a32217fb6c47d048f22b175e0e36b4177c9" size="9972374"> http://218.60.33.9/wwwFlv/flv/042/471/321/42471321.36389a32217fb6c47d048f22b175e0e36b4177c9_238_6.flv?key=dd52145474b8e47a02506e4b286d0607ee1a08&amp;id=tudou&amp;itemid=42471321</f></a><b><f w="1" h="0" sha1="36389a32217fb6c47d048f22b175e0e36b4177c9" size="9972374"> http://125.211.196.4/wwwFlv/flv/042/471/321/42471321.36389a32217fb6c47d048f22b175e0e36b4177c9_238_6.flv?key=dd52145474b8e47a02506e4b286d0607ee1a08&amp;id=tudou&amp;itemid=42471321</f><f w="1" h="0" sha1="36389a32217fb6c47d048f22b175e0e36b4177c9" size="9972374"> http://119.147.178.9/wwwFlv/flv/042/471/321/42471321.36389a32217fb6c47d048f22b175e0e36b4177c9_238_6.flv?key=dd52145474b8e47a02506e4b286d0607ee1a08&amp;id=tudou&amp;itemid=42471321</f></b></v>

 

其中Time是播放时间而Title是影片名的Unicode形式,code就是影片的编码我们可以看到前面的也几乎就是这个形式。

至于图片,其实在这里没有直接提供但是我们也可以根据其它的图片推算出来

http://i01.img.tudou.com/data/imgs/i/042/471/321/p.jpg 为其图片地址

4247132是其Id,结合方法应该很容易看的出来

目录
相关文章
|
5月前
|
SQL 大数据 HIVE
每天一道大厂SQL题【Day28】腾讯数据提取(一)搞笑类型视频的曝光点赞数据
每天一道大厂SQL题【Day28】腾讯数据提取(一)搞笑类型视频的曝光点赞数据
54 0
|
5月前
|
自然语言处理 搜索推荐 数据挖掘
自制字节上万条招聘信息搜索网站,好玩!
自制字节上万条招聘信息搜索网站,好玩!
|
运维 API 数据安全/隐私保护
今天出门你查老黄历了吗?包括万年历在内的超多免费可用 API 推荐(一)
万年历 API:获取公历日期对应的农历、农历节日节气、天干地支纪年纪月纪日、生肖属相、宜忌、星座等信息。支持查询未来15天。
891 0
今天出门你查老黄历了吗?包括万年历在内的超多免费可用 API  推荐(一)
|
数据采集 存储 算法
Python爬虫必备技能,使用 动态代理ip 获取Steam 热销商品 示例
动态代理ip 相信大家肯定都听说过,或者已经使用过。 本篇文章就来介绍一下什么是动态代理ip,还有一个使用代理ip爬取Youtube游戏模块主页。 使用动态ip有很多好处,比如保护你的网络免受外部攻击、屏蔽你的IP地址等。 那本篇文章就来研究一下这个动态ip,对这方面不了解的小伙伴正好可以一起学习一下。
Python爬虫必备技能,使用 动态代理ip 获取Steam 热销商品 示例
|
数据采集 JSON 安全
竟然如此简单!输入明星名字就可以直接爬取高清图片
**听说你在自己喜欢的明星壁纸?比如李易峰,王一博,易烊千玺、王源、王俊凯,李现等。今天教你批量下载这些明星高清壁纸****(文末有福利)**
368 0
|
机器学习/深度学习 达摩院 算法
淘宝内容场下的人物理解系统
淘宝内容场下的人物理解系统
179 0
淘宝内容场下的人物理解系统
|
Web App开发 前端开发 Android开发
我自己开发的工具,打印出百度贴吧某用户发表过的所有帖子
我自己开发的工具,打印出百度贴吧某用户发表过的所有帖子
90 0
定制篮球直播比分站实时比赛数据API比赛结果数据调用代码
定制篮球直播比分站实时比赛数据API比赛结果数据调用代码
399 0
定制篮球直播比分站实时比赛数据API比赛结果数据调用代码