ytdl-nightly/youtube_dl/extractor/rutube.py

# encoding: utf-8
from __future__ import unicode_literals

import re
import json
import itertools

from .common import InfoExtractor
from ..utils import (
    compat_str,
    unified_strdate,
    ExtractorError,
)


class RutubeIE(InfoExtractor):
    IE_NAME = 'rutube'
    IE_DESC = 'Rutube videos'
    _VALID_URL = r'https?://rutube\.ru/video/(?P<id>[\da-z]{32})'

    _TEST = {
        'url': 'http://rutube.ru/video/3eac3b4561676c17df9132a9a1e62e3e/',
        'file': '3eac3b4561676c17df9132a9a1e62e3e.mp4',
        'info_dict': {
            'title': 'Раненный кенгуру забежал в аптеку',
            'description': 'http://www.ntdtv.ru ',
            'duration': 80,
            'uploader': 'NTDRussian',
            'uploader_id': '29790',
            'upload_date': '20131016',
        },
        'params': {
            # It requires ffmpeg (m3u8 download)
            'skip_download': True,
        },
    }

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        video_id = mobj.group('id')
        
        api_response = self._download_webpage('http://rutube.ru/api/video/%s/?format=json' % video_id,
                                              video_id, 'Downloading video JSON')
        video = json.loads(api_response)
        
        api_response = self._download_webpage('http://rutube.ru/api/play/trackinfo/%s/?format=json' % video_id,
                                              video_id, 'Downloading trackinfo JSON')
        trackinfo = json.loads(api_response)
        
        # Some videos don't have the author field
        author = trackinfo.get('author') or {}
        m3u8_url = trackinfo['video_balancer'].get('m3u8')
        if m3u8_url is None:
            raise ExtractorError('Couldn\'t find m3u8 manifest url')

        return {
            'id': video['id'],
            'title': video['title'],
            'description': video['description'],
            'duration': video['duration'],
            'view_count': video['hits'],
            'url': m3u8_url,
            'ext': 'mp4',
            'thumbnail': video['thumbnail_url'],
            'uploader': author.get('name'),
            'uploader_id': compat_str(author['id']) if author else None,
            'upload_date': unified_strdate(video['created_ts']),
            'age_limit': 18 if video['is_adult'] else 0,
        }


class RutubeChannelIE(InfoExtractor):
    IE_NAME = 'rutube:channel'
    IE_DESC = 'Rutube channels'
    _VALID_URL = r'http://rutube\.ru/tags/video/(?P<id>\d+)'

    _PAGE_TEMPLATE = 'http://rutube.ru/api/tags/video/%s/?page=%s&format=json'

    def _extract_videos(self, channel_id, channel_title=None):
        entries = []
        for pagenum in itertools.count(1):
            api_response = self._download_webpage(
                self._PAGE_TEMPLATE % (channel_id, pagenum),
                channel_id, 'Downloading page %s' % pagenum)
            page = json.loads(api_response)
            results = page['results']
            if not results:
                break
            entries.extend(self.url_result(result['video_url'], 'Rutube') for result in results)
            if not page['has_next']:
                break
        return self.playlist_result(entries, channel_id, channel_title)

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        channel_id = mobj.group('id')
        return self._extract_videos(channel_id)


class RutubeMovieIE(RutubeChannelIE):
    IE_NAME = 'rutube:movie'
    IE_DESC = 'Rutube movies'
    _VALID_URL = r'http://rutube\.ru/metainfo/tv/(?P<id>\d+)'

    _MOVIE_TEMPLATE = 'http://rutube.ru/api/metainfo/tv/%s/?format=json'
    _PAGE_TEMPLATE = 'http://rutube.ru/api/metainfo/tv/%s/video?page=%s&format=json'

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        movie_id = mobj.group('id')
        api_response = self._download_webpage(
            self._MOVIE_TEMPLATE % movie_id, movie_id,
            'Downloading movie JSON')
        movie = json.loads(api_response)
        movie_name = movie['name']
        return self._extract_videos(movie_id, movie_name)


class RutubePersonIE(RutubeChannelIE):
    IE_NAME = 'rutube:person'
    IE_DESC = 'Rutube person videos'
    _VALID_URL = r'http://rutube\.ru/video/person/(?P<id>\d+)'

    _PAGE_TEMPLATE = 'http://rutube.ru/api/video/person/%s/?page=%s&format=json'
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 16:57:40 +02:00			`# encoding: utf-8`
[rutube] Add support for channels and movies 2014-01-28 06:56:09 +07:00			`from __future__ import unicode_literals`

Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 16:57:40 +02:00			`import re`
			`import json`
[rutube] Add support for channels and movies 2014-01-28 06:56:09 +07:00			`import itertools`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 16:57:40 +02:00
			`from .common import InfoExtractor`
			`from ..utils import (`
			`compat_str,`
[rutube] Improve video extractor 2014-01-28 08:19:45 +07:00			`unified_strdate,`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 16:57:40 +02:00			`ExtractorError,`
			`)`


			`class RutubeIE(InfoExtractor):`
[rutube] Add support for channels and movies 2014-01-28 06:56:09 +07:00			`IE_NAME = 'rutube'`
[rutube] Simplify 2014-01-28 03:32:07 +01:00			`IE_DESC = 'Rutube videos'`
[rutube] Add support for user videos 2014-01-28 08:47:17 +07:00			`_VALID_URL = r'https?://rutube\.ru/video/(?P<id>[\da-z]{32})'`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 16:57:40 +02:00
			`_TEST = {`
[rutube] Add support for channels and movies 2014-01-28 06:56:09 +07:00			`'url': 'http://rutube.ru/video/3eac3b4561676c17df9132a9a1e62e3e/',`
			`'file': '3eac3b4561676c17df9132a9a1e62e3e.mp4',`
			`'info_dict': {`
			`'title': 'Раненный кенгуру забежал в аптеку',`
[rutube] Update test 2014-01-28 09:31:14 +07:00			`'description': 'http://www.ntdtv.ru ',`
			`'duration': 80,`
[rutube] Add support for channels and movies 2014-01-28 06:56:09 +07:00			`'uploader': 'NTDRussian',`
			`'uploader_id': '29790',`
[rutube] Update test 2014-01-28 09:31:14 +07:00			`'upload_date': '20131016',`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 16:57:40 +02:00			`},`
[rutube] Add support for channels and movies 2014-01-28 06:56:09 +07:00			`'params': {`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 16:57:40 +02:00			`# It requires ffmpeg (m3u8 download)`
[rutube] Add support for channels and movies 2014-01-28 06:56:09 +07:00			`'skip_download': True,`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 16:57:40 +02:00			`},`
			`}`

			`def _real_extract(self, url):`
			`mobj = re.match(self._VALID_URL, url)`
[rutube] Add support for user videos 2014-01-28 08:47:17 +07:00			`video_id = mobj.group('id')`
[rutube] Improve video extractor 2014-01-28 08:19:45 +07:00
[rutube] Add support for user videos 2014-01-28 08:47:17 +07:00			`api_response = self._download_webpage('http://rutube.ru/api/video/%s/?format=json' % video_id,`
			`video_id, 'Downloading video JSON')`
[rutube] Improve video extractor 2014-01-28 08:19:45 +07:00			`video = json.loads(api_response)`

[rutube] Add support for user videos 2014-01-28 08:47:17 +07:00			`api_response = self._download_webpage('http://rutube.ru/api/play/trackinfo/%s/?format=json' % video_id,`
			`video_id, 'Downloading trackinfo JSON')`
[rutube] Improve video extractor 2014-01-28 08:19:45 +07:00			`trackinfo = json.loads(api_response)`

Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 16:57:40 +02:00			`# Some videos don't have the author field`
			`author = trackinfo.get('author') or {}`
			`m3u8_url = trackinfo['video_balancer'].get('m3u8')`
			`if m3u8_url is None:`
[rutube] Add support for channels and movies 2014-01-28 06:56:09 +07:00			`raise ExtractorError('Couldn\'t find m3u8 manifest url')`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 16:57:40 +02:00
			`return {`
[rutube] Improve video extractor 2014-01-28 08:19:45 +07:00			`'id': video['id'],`
			`'title': video['title'],`
			`'description': video['description'],`
			`'duration': video['duration'],`
			`'view_count': video['hits'],`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 16:57:40 +02:00			`'url': m3u8_url,`
			`'ext': 'mp4',`
[rutube] Improve video extractor 2014-01-28 08:19:45 +07:00			`'thumbnail': video['thumbnail_url'],`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 16:57:40 +02:00			`'uploader': author.get('name'),`
			`'uploader_id': compat_str(author['id']) if author else None,`
[rutube] Improve video extractor 2014-01-28 08:19:45 +07:00			`'upload_date': unified_strdate(video['created_ts']),`
			`'age_limit': 18 if video['is_adult'] else 0,`
Add an extractor for rutube.ru (closes #1136) It downloads with a m3u8 manifest, requires ffmpeg. 2013-10-16 16:57:40 +02:00			`}`
[rutube] Add support for channels and movies 2014-01-28 06:56:09 +07:00

			`class RutubeChannelIE(InfoExtractor):`
			`IE_NAME = 'rutube:channel'`
[rutube] Simplify 2014-01-28 03:32:07 +01:00			`IE_DESC = 'Rutube channels'`
[rutube] Add support for channels and movies 2014-01-28 06:56:09 +07:00			`_VALID_URL = r'http://rutube\.ru/tags/video/(?P<id>\d+)'`

			`_PAGE_TEMPLATE = 'http://rutube.ru/api/tags/video/%s/?page=%s&format=json'`

			`def _extract_videos(self, channel_id, channel_title=None):`
			`entries = []`
			`for pagenum in itertools.count(1):`
[rutube] Simplify 2014-01-28 03:32:07 +01:00			`api_response = self._download_webpage(`
			`self._PAGE_TEMPLATE % (channel_id, pagenum),`
			`channel_id, 'Downloading page %s' % pagenum)`
[rutube] Improve video extractor 2014-01-28 08:19:45 +07:00			`page = json.loads(api_response)`
[rutube] Add support for channels and movies 2014-01-28 06:56:09 +07:00			`results = page['results']`
[rutube] Simplify 2014-01-28 03:32:07 +01:00			`if not results:`
			`break`
[rutube] Improve video extractor 2014-01-28 08:19:45 +07:00			`entries.extend(self.url_result(result['video_url'], 'Rutube') for result in results)`
[rutube] Simplify 2014-01-28 03:32:07 +01:00			`if not page['has_next']:`
			`break`
[rutube] Add support for channels and movies 2014-01-28 06:56:09 +07:00			`return self.playlist_result(entries, channel_id, channel_title)`

			`def _real_extract(self, url):`
			`mobj = re.match(self._VALID_URL, url)`
			`channel_id = mobj.group('id')`
			`return self._extract_videos(channel_id)`


			`class RutubeMovieIE(RutubeChannelIE):`
			`IE_NAME = 'rutube:movie'`
[rutube] Simplify 2014-01-28 03:32:07 +01:00			`IE_DESC = 'Rutube movies'`
[rutube] Add support for channels and movies 2014-01-28 06:56:09 +07:00			`_VALID_URL = r'http://rutube\.ru/metainfo/tv/(?P<id>\d+)'`

			`_MOVIE_TEMPLATE = 'http://rutube.ru/api/metainfo/tv/%s/?format=json'`
			`_PAGE_TEMPLATE = 'http://rutube.ru/api/metainfo/tv/%s/video?page=%s&format=json'`

			`def _real_extract(self, url):`
			`mobj = re.match(self._VALID_URL, url)`
			`movie_id = mobj.group('id')`
[rutube] Simplify 2014-01-28 03:32:07 +01:00			`api_response = self._download_webpage(`
			`self._MOVIE_TEMPLATE % movie_id, movie_id,`
			`'Downloading movie JSON')`
[rutube] Improve video extractor 2014-01-28 08:19:45 +07:00			`movie = json.loads(api_response)`
[rutube] Add support for channels and movies 2014-01-28 06:56:09 +07:00			`movie_name = movie['name']`
[rutube] Add support for user videos 2014-01-28 08:47:17 +07:00			`return self._extract_videos(movie_id, movie_name)`


			`class RutubePersonIE(RutubeChannelIE):`
			`IE_NAME = 'rutube:person'`
			`IE_DESC = 'Rutube person videos'`
			`_VALID_URL = r'http://rutube\.ru/video/person/(?P<id>\d+)'`

[rutube] Simplify 2014-01-28 03:32:07 +01:00			`_PAGE_TEMPLATE = 'http://rutube.ru/api/video/person/%s/?page=%s&format=json'`