[RTBFVideo] Add new extractor

11 years ago · 201e3c99b9
--- a/youtube_dl/extractor/init.py
+++ b/youtube_dl/extractor/init.py
@ -210,6 +210,7 @@ from .ringtv import RingTVIE
 from .ro220 import Ro220IE
 from .rottentomatoes import RottenTomatoesIE
 from .roxwel import RoxwelIE
 from .rtbf import RTBFVideoIE
 from .rtlnow import RTLnowIE
 from .rts import RTSIE
 from .rtve import RTVEALaCartaIE
--- a/youtube_dl/extractor/rtbf.py
+++ b/youtube_dl/extractor/rtbf.py
@ -0,0 +1,49 @@
 # coding: utf-8
 from __future__ import unicode_literals

 import re
 import json

 from .common import InfoExtractor
 from ..utils import clean_html

 class RTBFVideoIE(InfoExtractor):
    _VALID_URL = r'https?://www.rtbf.be/video/(?P<title>[^?]+)\?.*id=(?P<id>[0-9]+)'
    _TEST = {
        'url': 'https://www.rtbf.be/video/detail_les-diables-au-coeur-episode-2?id=1921274',
        'md5': '799f334ddf2c0a582ba80c44655be570',
        'info_dict': {
            'id': '1921274',
            'ext': 'mp4',
            'title': 'Les Diables au coeur (épisode 2)',
            'duration': 3099,
        }
    }

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        video_id = mobj.group('id')

        # TODO more code goes here, for example ...
        webpage = self._download_webpage(url, video_id)
        title = self._html_search_regex(
            r'<meta property="og:description" content="([^"]*)"',
            webpage, 'title', mobj.group('title'))
        print title

        iframe_url = self._html_search_regex(r'<iframe [^>]*src="([^"]+)"',
            webpage, 'iframe')
        iframe = self._download_webpage(iframe_url, video_id)

        data_video_idx = iframe.find('data-video')
        next_data_idx = iframe.find('data-', data_video_idx + 1)
        json_data_start = data_video_idx + len('data-video=') + 1
        json_data_end = next_data_idx - 2
        video_data = json.loads(clean_html(iframe[json_data_start:json_data_end]))

        return {
            'id': video_id,
            'title': title,
            'url': video_data['data']['downloadUrl'],
            'duration': video_data['data']['duration'],
        }