dosage/dosagelib/plugins/k.py

# -*- coding: iso-8859-1 -*-
# Copyright (C) 2004-2005 Tristan Seligmann and Jonathan Jacobs
# Copyright (C) 2012-2014 Bastian Kleineidam

from re import compile, escape, IGNORECASE
from ..scraper import _BasicScraper
from ..util import tagre
from ..helpers import indirectStarter


class KatzenfutterGeleespritzer(_BasicScraper):
    url = 'http://www.katzenfuttergeleespritzer.de/'
    rurl = escape(url)
    stripUrl = url + 'comics/%s/'
    firstStripUrl = stripUrl % 'dont-drink-and-drive'
    imageSearch = (
        compile(tagre("img", "src", r'(%swp-content/uploads/\d+/\d+/\d+-\d+-\d+[^"]+)' % rurl)),
        compile(tagre("img", "src", r'(%swp-content/uploads/\d+/\d+/mmai_404[^"]+)' % rurl)),
    )
    # XXX disallowed by robots.txt
    #prevSearch = compile(tagre("a", "href", r'(%scomics/[^"]+)' % rurl, after="navi-prev"))
    #help = 'Index format: stripname'
    lang = 'de'


class KevinAndKell(_BasicScraper):
    url = 'http://www.kevinandkell.com/'
    stripUrl = url + '%s/kk%s%s.html'
    firstStripUrl = stripUrl % ('1995', '09', '03')
    imageSearch = compile(r'<img.+?src="(/?(\d+/)?strips/kk\d+.(gif|jpg))"', IGNORECASE)
    prevSearch = compile(r'<a.+?href="(/?(\.\./)?\d+/kk\d+\.html)"[^>]*><span>Previous Strip', IGNORECASE)
    help = 'Index format: yyyy-mm-dd'

    def getIndexStripUrl(self, index):
        return self.stripUrl % tuple(map(int, index.split('-')))


class Key(_BasicScraper):
    baseUrl = 'http://key.shadilyn.com/'
    url = baseUrl + 'latestpage.html'
    stripUrl = baseUrl + 'pages/%s.html'
    imageSearch = compile(r'"((?:images/.+?)|(?:pages/images/.+?))"')
    prevSearch = compile(r'</a><a href="(.+?html)".+?prev')
    help = 'Index format: nnn'


class KickInTheHead(_BasicScraper):
    url = 'http://www.kickinthehead.org/'
    rurl = escape(url)
    stripUrl = url + '%s/'
    firstStripUrl = stripUrl % '2003/03/20/ipod-envy'
    imageSearch = compile(tagre("img", "src", r'(%skickinthehead3/comics/\d+-\d+-\d+[^"]+)' % rurl))
    prevSearch = compile(tagre("a", "href", r'(%s\d+/\d+/\d+/[^"]+)' % rurl, after="navi-prev"))
    help = 'Index format: yyyy/mm/dd/stripname'


class KillerKomics(_BasicScraper):
    baseUrl = 'http://www.killerkomics.com/web-comics/'
    url = baseUrl + 'index_ang.cfm'
    stripUrl = baseUrl + '%s.cfm'
    imageSearch = compile(r'<img src="(http://www.killerkomics.com/FichiersUpload/Comics/.+?)"')
    prevSearch = compile(r'<div id="precedent"><a href="(.+?)"')
    help = 'Index format: strip-name'


# XXX disallowed by robots.txt
class _Kofightclub(_BasicScraper):
    url = 'http://www.kofightclub.com/'
    stripUrl = url + 'd/%s.html'
    imageSearch = compile(tagre("img", "src", r'(\.\./images/\d+[^"]+)'))
    prevSearch = compile(tagre("a", "href", r'((?:http://www\.kofightclub\.com)?/d/\d+\.html)')
     + tagre("img", "alt", "Previous comic"))
    help = 'Index format: yyyymmdd'


class Krakow(_BasicScraper):
    url = 'http://www.krakow.krakowstudios.com/'
    stripUrl = url + 'archive.php?date=%s'
    firstStripUrl = stripUrl % '20081111'
    imageSearch = compile(r'<img src="(comics/.+?)"')
    prevSearch = compile(r'<a href="(archive\.php\?date=.+?)"><img border=0 name=previous_day')
    help = 'Index format: yyyymmdd'


class Kukuburi(_BasicScraper):
    baseUrl = 'http://www.kukuburi.com/'
    url = baseUrl + 'current/'
    stripUrl = baseUrl + 'v2/%s/'
    firstStripUrl = stripUrl % '2007/08/09/one'
    imageSearch = compile(tagre("img", "src", r'(http://www\.kukuburi\.com/v2/comics/[^"]+)', after='alt="[^"]'))
    prevSearch = compile(r'nav-previous.+?"(http.+?)"')
    help = 'Index format: yyyy/mm/dd/stripname'


class KuroShouri(_BasicScraper):
    url = 'http://kuroshouri.com/'
    rurl = escape(url)
    stripUrl = url + '?webcomic_post=%s'
    imageSearch = compile(tagre("img", "src", r"(%swp-content/webcomic/kuroshouri/[^'\"]+)" % rurl, quote="['\"]"))
    prevSearch = compile(tagre("a", "href", r'(%s\?webcomic_post\=[^"]+)' % rurl, after="previous"))
    help = 'Index format: chapter-n-page-m'
    starter = indirectStarter(url, prevSearch)
Updated copyright for all source files. 2012-06-20 20:41:04 +00:00			`# -- coding: iso-8859-1 --`
			`# Copyright (C) 2004-2005 Tristan Seligmann and Jonathan Jacobs`
Updated copyright. 2014-01-05 15:50:57 +00:00			`# Copyright (C) 2012-2014 Bastian Kleineidam`
Initial commit to Github. 2012-06-20 19:58:13 +00:00
Use re.escape and add some firstStripUrl. 2013-04-10 16:19:11 +00:00			`from re import compile, escape, IGNORECASE`
A lot of refactoring. 2012-10-11 10:03:12 +00:00			`from ..scraper import _BasicScraper`
Fix comics. 2012-12-04 06:02:40 +00:00			`from ..util import tagre`
Fixed some comics. 2013-04-11 16:27:43 +00:00			`from ..helpers import indirectStarter`

Initial commit to Github. 2012-06-20 19:58:13 +00:00
Added some comics, fixed some. 2013-03-21 17:33:16 +00:00			`class KatzenfutterGeleespritzer(_BasicScraper):`
Add Katzenfuttergeleespritzer and ParallelUniversum 2013-03-20 16:39:49 +00:00			`url = 'http://www.katzenfuttergeleespritzer.de/'`
Use re.escape and add some firstStripUrl. 2013-04-10 16:19:11 +00:00			`rurl = escape(url)`
Fix some comics. 2013-04-28 17:58:38 +00:00			`stripUrl = url + 'comics/%s/'`
Add Katzenfuttergeleespritzer and ParallelUniversum 2013-03-20 16:39:49 +00:00			`firstStripUrl = stripUrl % 'dont-drink-and-drive'`
Fix KatzenfutterGeleespritzer 2013-04-04 16:30:02 +00:00			`imageSearch = (`
Use re.escape and add some firstStripUrl. 2013-04-10 16:19:11 +00:00			`compile(tagre("img", "src", r'(%swp-content/uploads/\d+/\d+/\d+-\d+-\d+[^"]+)' % rurl)),`
			`compile(tagre("img", "src", r'(%swp-content/uploads/\d+/\d+/mmai_404[^"]+)' % rurl)),`
Fix KatzenfutterGeleespritzer 2013-04-04 16:30:02 +00:00			`)`
Fix some comics. 2013-04-28 17:58:38 +00:00			`# XXX disallowed by robots.txt`
			`#prevSearch = compile(tagre("a", "href", r'(%scomics/[^"]+)' % rurl, after="navi-prev"))`
			`#help = 'Index format: stripname'`
Add Katzenfuttergeleespritzer and ParallelUniversum 2013-03-20 16:39:49 +00:00			`lang = 'de'`


Initial commit to Github. 2012-06-20 19:58:13 +00:00			`class KevinAndKell(_BasicScraper):`
Always have an url attribute in comic scrapers. 2013-02-04 20:00:26 +00:00			`url = 'http://www.kevinandkell.com/'`
			`stripUrl = url + '%s/kk%s%s.html'`
Add firstStripUrl for KevinAndKell. 2013-03-25 18:48:19 +00:00			`firstStripUrl = stripUrl % ('1995', '09', '03')`
Fix some comics. 2013-07-09 20:21:17 +00:00			`imageSearch = compile(r'<img.+?src="(/?(\d+/)?strips/kk\d+.(gif\|jpg))"', IGNORECASE)`
Initial commit to Github. 2012-06-20 19:58:13 +00:00			`prevSearch = compile(r'<a.+?href="(/?(\.\./)?\d+/kk\d+\.html)"[^>]*><span>Previous Strip', IGNORECASE)`
			`help = 'Index format: yyyy-mm-dd'`

Added some comic strips and cleanup the scraper code. 2013-03-06 19:00:30 +00:00			`def getIndexStripUrl(self, index):`
			`return self.stripUrl % tuple(map(int, index.split('-')))`
Initial commit to Github. 2012-06-20 19:58:13 +00:00

Sort comics. 2013-03-06 19:21:10 +00:00			`class Key(_BasicScraper):`
s/baseurl/baseUrl/g 2013-04-13 18:58:00 +00:00			`baseUrl = 'http://key.shadilyn.com/'`
			`url = baseUrl + 'latestpage.html'`
			`stripUrl = baseUrl + 'pages/%s.html'`
Sort comics. 2013-03-06 19:21:10 +00:00			`imageSearch = compile(r'"((?:images/.+?)\|(?:pages/images/.+?))"')`
			`prevSearch = compile(r'</a><a href="(.+?html)".+?prev')`
			`help = 'Index format: nnn'`


Added KickInTheHead 2013-03-12 20:16:17 +00:00			`class KickInTheHead(_BasicScraper):`
			`url = 'http://www.kickinthehead.org/'`
Use re.escape and add some firstStripUrl. 2013-04-10 16:19:11 +00:00			`rurl = escape(url)`
Added KickInTheHead 2013-03-12 20:16:17 +00:00			`stripUrl = url + '%s/'`
			`firstStripUrl = stripUrl % '2003/03/20/ipod-envy'`
Use re.escape and add some firstStripUrl. 2013-04-10 16:19:11 +00:00			`imageSearch = compile(tagre("img", "src", r'(%skickinthehead3/comics/\d+-\d+-\d+[^"]+)' % rurl))`
			`prevSearch = compile(tagre("a", "href", r'(%s\d+/\d+/\d+/[^"]+)' % rurl, after="navi-prev"))`
Added KickInTheHead 2013-03-12 20:16:17 +00:00			`help = 'Index format: yyyy/mm/dd/stripname'`


Initial commit to Github. 2012-06-20 19:58:13 +00:00			`class KillerKomics(_BasicScraper):`
s/baseurl/baseUrl/g 2013-04-13 18:58:00 +00:00			`baseUrl = 'http://www.killerkomics.com/web-comics/'`
			`url = baseUrl + 'index_ang.cfm'`
			`stripUrl = baseUrl + '%s.cfm'`
Initial commit to Github. 2012-06-20 19:58:13 +00:00			`imageSearch = compile(r'<img src="(http://www.killerkomics.com/FichiersUpload/Comics/.+?)"')`
			`prevSearch = compile(r'<div id="precedent"><a href="(.+?)"')`
			`help = 'Index format: strip-name'`
Added comics. 2012-12-08 20:30:51 +00:00

Various comics are fixed. 2012-12-13 20:05:27 +00:00			`# XXX disallowed by robots.txt`
			`class _Kofightclub(_BasicScraper):`
Always have an url attribute in comic scrapers. 2013-02-04 20:00:26 +00:00			`url = 'http://www.kofightclub.com/'`
			`stripUrl = url + 'd/%s.html'`
Added comics. 2012-12-08 20:30:51 +00:00			`imageSearch = compile(tagre("img", "src", r'(\.\./images/\d+[^"]+)'))`
			`prevSearch = compile(tagre("a", "href", r'((?:http://www\.kofightclub\.com)?/d/\d+\.html)')`
			`+ tagre("img", "alt", "Previous comic"))`
			`help = 'Index format: yyyymmdd'`
Various comics are fixed. 2012-12-13 20:05:27 +00:00

Sort comics. 2013-03-06 19:21:10 +00:00			`class Krakow(_BasicScraper):`
			`url = 'http://www.krakow.krakowstudios.com/'`
			`stripUrl = url + 'archive.php?date=%s'`
Add firstStripUrls. 2013-04-10 21:57:09 +00:00			`firstStripUrl = stripUrl % '20081111'`
Sort comics. 2013-03-06 19:21:10 +00:00			`imageSearch = compile(r'<img src="(comics/.+?)"')`
			`prevSearch = compile(r'<a href="(archive\.php\?date=.+?)"><img border=0 name=previous_day')`
			`help = 'Index format: yyyymmdd'`


			`class Kukuburi(_BasicScraper):`
s/baseurl/baseUrl/g 2013-04-13 18:58:00 +00:00			`baseUrl = 'http://www.kukuburi.com/'`
			`url = baseUrl + 'current/'`
			`stripUrl = baseUrl + 'v2/%s/'`
Add firstStripUrls. 2013-04-10 21:57:09 +00:00			`firstStripUrl = stripUrl % '2007/08/09/one'`
Sort comics. 2013-03-06 19:21:10 +00:00			`imageSearch = compile(tagre("img", "src", r'(http://www\.kukuburi\.com/v2/comics/[^"]+)', after='alt="[^"]'))`
			`prevSearch = compile(r'nav-previous.+?"(http.+?)"')`
			`help = 'Index format: yyyy/mm/dd/stripname'`


Various comics are fixed. 2012-12-13 20:05:27 +00:00			`class KuroShouri(_BasicScraper):`
Use re.escape and add some firstStripUrl. 2013-04-10 16:19:11 +00:00			`url = 'http://kuroshouri.com/'`
			`rurl = escape(url)`
			`stripUrl = url + '?webcomic_post=%s'`
			`imageSearch = compile(tagre("img", "src", r"(%swp-content/webcomic/kuroshouri/[^'\"]+)" % rurl, quote="['\"]"))`
Fixed some comics. 2013-04-11 16:27:43 +00:00			`prevSearch = compile(tagre("a", "href", r'(%s\?webcomic_post\=[^"]+)' % rurl, after="previous"))`
Use re.escape and add some firstStripUrl. 2013-04-10 16:19:11 +00:00			`help = 'Index format: chapter-n-page-m'`
Fixed some comics. 2013-04-11 16:27:43 +00:00			`starter = indirectStarter(url, prevSearch)`