Add an extractor for kankan.com (closes #1133)

12 years ago · 8cda9241d1
--- a/youtube_dl/extractor/init.py
+++ b/youtube_dl/extractor/init.py
@ -38,6 +38,7 @@ from .infoq import InfoQIE
 from .instagram import InstagramIE
 from .jukebox import JukeboxIE
 from .justintv import JustinTVIE
 from .kankan import KankanIE
 from .keek import KeekIE
 from .liveleak import LiveLeakIE
 from .livestream import LivestreamIE
--- a/youtube_dl/extractor/kankan.py
+++ b/youtube_dl/extractor/kankan.py
@ -0,0 +1,37 @@
 import re

 from .common import InfoExtractor
 from ..utils import determine_ext


 class KankanIE(InfoExtractor):
    _VALID_URL = r'https?://(?:.*?\.)?kankan\.com/.+?/(?P<id>\d+)\.shtml'
    
    _TEST = {
        u'url': u'http://yinyue.kankan.com/vod/48/48863.shtml',
        u'file': u'48863.flv',
        u'md5': u'29aca1e47ae68fc28804aca89f29507e',
        u'info_dict': {
            u'title': u'Ready To Go',
        },
    }

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        video_id = mobj.group('id')
        webpage = self._download_webpage(url, video_id)

        title = self._search_regex(r'G_TITLE=[\'"](.+?)[\'"]', webpage, u'video title')
        gcid = self._search_regex(r'lurl:[\'"]http://.+?/.+?/(.+?)/', webpage, u'gcid')

        video_info_page = self._download_webpage('http://p2s.cl.kankan.com/getCdnresource_flv?gcid=%s' % gcid,
                                                 video_id, u'Downloading video url info')
        ip = self._search_regex(r'ip:"(.+?)"', video_info_page, u'video url ip')
        path = self._search_regex(r'path:"(.+?)"', video_info_page, u'video url path')
        video_url = 'http://%s%s' % (ip, path)

        return {'id': video_id,
                'title': title,
                'url': video_url,
                'ext': determine_ext(video_url),
                }