Merge remote-tracking branch 'upstream/master'

10 years ago · d1b4617e1d
--- a/youtube_dl/extractor/init.py
+++ b/youtube_dl/extractor/init.py
@ -126,6 +126,7 @@ from .helsinki import HelsinkiIE
 from .hentaistigma import HentaiStigmaIE
 from .hotnewhiphop import HotNewHipHopIE
 from .howcast import HowcastIE
 from .howstuffworks import HowStuffWorksIE
 from .huffpost import HuffPostIE
 from .hypem import HypemIE
 from .iconosquare import IconosquareIE
--- a/youtube_dl/extractor/howstuffworks.py
+++ b/youtube_dl/extractor/howstuffworks.py
@ -0,0 +1,134 @@
 from __future__ import unicode_literals

 import re
 import json
 import random
 import string

 from .common import InfoExtractor
 from ..utils import find_xpath_attr


 class HowStuffWorksIE(InfoExtractor):
    _VALID_URL = r'https?://[\da-z-]+\.howstuffworks\.com/(?:[^/]+/)*\d+-(?P<id>.+?)-video\.htm'
    _TESTS = [
        {
            'url': 'http://adventure.howstuffworks.com/5266-cool-jobs-iditarod-musher-video.htm',
            'info_dict': {
                'id': '450221',
                'display_id': 'cool-jobs-iditarod-musher',
                'ext': 'flv',
                'title': 'Cool Jobs - Iditarod Musher',
                'description': 'md5:82bb58438a88027b8186a1fccb365f90',
                'thumbnail': 're:^https?://.*\.jpg$',
            },
            'params': {
                # md5 is not consistent
                'skip_download': True
            }
        },
        {
            'url': 'http://adventure.howstuffworks.com/39516-deadliest-catch-jakes-farewell-pots-video.htm',
            'info_dict': {
                'id': '553470',
                'display_id': 'deadliest-catch-jakes-farewell-pots',
                'ext': 'mp4',
                'title': 'Deadliest Catch: Jake\'s Farewell Pots',
                'description': 'md5:9632c346d5e43ee238028c9cefd8dbbc',
                'thumbnail': 're:^https?://.*\.jpg$',
            },
            'params': {
                # md5 is not consistent
                'skip_download': True
            }
        },
        {
            'url': 'http://entertainment.howstuffworks.com/arts/2706-sword-swallowing-1-by-dan-meyer-video.htm',
            'info_dict': {
                'id': '440011',
                'display_id': 'sword-swallowing-1-by-dan-meyer',
                'ext': 'flv',
                'title': 'Sword Swallowing #1 by Dan Meyer',
                'description': 'md5:b2409e88172913e2e7d3d1159b0ef735',
                'thumbnail': 're:^https?://.*\.jpg$',
            },
            'params': {
                # md5 is not consistent
                'skip_download': True
            }
        },
    ]

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        display_id = mobj.group('id')
        webpage = self._download_webpage(url, display_id)

        content_id = self._search_regex(r'var siteSectionId="(\d+)";', webpage, 'content id')

        mp4 = self._search_regex(
            r'''(?xs)var\s+clip\s*=\s*{\s*
                .+?\s*
                content_id\s*:\s*%s\s*,\s*
                .+?\s*
                mp4\s*:\s*\[(.*?),?\]\s*
                };\s*
                videoData\.push\(clip\);''' % content_id,
            webpage, 'mp4', fatal=False, default=None)

        smil = self._download_xml(
            'http://services.media.howstuffworks.com/videos/%s/smil-service.smil' % content_id,
            content_id, 'Downloading video SMIL')

        http_base = find_xpath_attr(
            smil,
            './{0}head/{0}meta'.format('{http://www.w3.org/2001/SMIL20/Language}'),
            'name',
            'httpBase').get('content')

        def random_string(str_len=0):
            return ''.join([random.choice(string.ascii_uppercase) for _ in range(str_len)])

        URL_SUFFIX = '?v=2.11.3&fp=LNX 11,2,202,356&r=%s&g=%s' % (random_string(5), random_string(12))

        formats = []

        if mp4:
            for video in json.loads('[%s]' % mp4):
                bitrate = video['bitrate']
                fmt = {
                    'url': video['src'].replace('http://pmd.video.howstuffworks.com', http_base) + URL_SUFFIX,
                    'format_id': bitrate,
                }
                m = re.search(r'(?P<vbr>\d+)[Kk]', bitrate)
                if m:
                    fmt['vbr'] = int(m.group('vbr'))
                formats.append(fmt)
        else:
            for video in smil.findall(
                    './/{0}body/{0}switch/{0}video'.format('{http://www.w3.org/2001/SMIL20/Language}')):
                vbr = int(video.attrib['system-bitrate']) / 1000
                formats.append({
                    'url': '%s/%s%s' % (http_base, video.attrib['src'], URL_SUFFIX),
                    'format_id': '%dk' % vbr,
                    'vbr': vbr,
                })

        self._sort_formats(formats)

        title = self._og_search_title(webpage)
        TITLE_SUFFIX = ' : HowStuffWorks'
        if title.endswith(TITLE_SUFFIX):
            title = title[:-len(TITLE_SUFFIX)]

        description = self._og_search_description(webpage)
        thumbnail = self._og_search_thumbnail(webpage)

        return {
            'id': content_id,
            'display_id': display_id,
            'title': title,
            'description': description,
            'thumbnail': thumbnail,
            'formats': formats,
        }
--- a/youtube_dl/extractor/livestream.py
+++ b/youtube_dl/extractor/livestream.py
@ -111,17 +111,28 @@ class LivestreamIE(InfoExtractor):
        event_name = mobj.group('event_name')
        webpage = self._download_webpage(url, video_id or event_name)

        if video_id is None:
            # This is an event page:
        og_video = self._og_search_video_url(webpage, 'player url', fatal=False, default=None)
        if og_video is None:
            config_json = self._search_regex(
                r'window.config = ({.*?});', webpage, 'window config')
            info = json.loads(config_json)['event']

            def is_relevant(vdata, vid):
                result = vdata['type'] == 'video'
                if video_id is not None:
                    result = result and compat_str(vdata['data']['id']) == vid
                return result

            videos = [self._extract_video_info(video_data['data'])
                for video_data in info['feed']['data']
                if video_data['type'] == 'video']
            return self.playlist_result(videos, info['id'], info['full_name'])
                      for video_data in info['feed']['data']
                      if is_relevant(video_data, video_id)]
            if video_id is None:
                # This is an event page:
                return self.playlist_result(videos, info['id'], info['full_name'])
            else:
                if videos:
                    return videos[0]
        else:
            og_video = self._og_search_video_url(webpage, 'player url')
            query_str = compat_urllib_parse_urlparse(og_video).query
            query = compat_urlparse.parse_qs(query_str)
            api_url = query['play_url'][0].replace('.smil', '')