dosage/dosagelib/plugins/i.py

# SPDX-License-Identifier: MIT
# Copyright (C) 2004-2008 Tristan Seligmann and Jonathan Jacobs
# Copyright (C) 2012-2014 Bastian Kleineidam
# Copyright (C) 2015-2020 Tobias Gruetzmacher
# Copyright (C) 2019-2020 Daniel Ring
from re import compile, escape

from ..helpers import indirectStarter
from ..scraper import _BasicScraper, _ParserScraper
from ..util import tagre
from .common import _WordPressScraper, _WPNavi, _WPWebcomic


class IAmArg(_BasicScraper):
    url = 'http://iamarg.com/'
    rurl = escape(url)
    stripUrl = url + '%s/'
    firstStripUrl = stripUrl % '2011/05/08/05082011'
    imageSearch = compile(tagre("img", "src", r'(//iamarg.com/comics/\d+-\d+-\d+[^"]+)'))
    prevSearch = compile(tagre("a", "href", r'(%s\d+/\d+/\d+/[^"]+)' % rurl, after="prev"))
    help = 'Index format: yyyy/mm/dd/stripname'


class ICanBarelyDraw(_BasicScraper):
    url = 'http://www.icanbarelydraw.com/comic/'
    rurl = escape(url)
    stripUrl = url + '%s'
    firstStripUrl = stripUrl % '39'
    imageSearch = compile(tagre("img", "src", r'(%scomics/\d+-\d+-\d+-[^"]+)' % rurl))
    prevSearch = compile(tagre("a", "href", r'(%s\d+)' % rurl))
    help = 'Index format: number'


class IDreamOfAJeanieBottle(_WordPressScraper):
    url = 'http://jeaniebottle.com/'


class InsignificantOtters(_WPWebcomic):
    stripUrl = 'https://www.thedepthscomic.com/i-otters/%s/'
    firstStripUrl = stripUrl % 'page-1'
    url = firstStripUrl
    imageSearch = '//div[contains(@class, "webcomic-media")]//img'
    starter = indirectStarter


class InternetWebcomic(_WPNavi):
    url = 'http://www.internet-webcomic.com/'
    stripUrl = url + '?p=%s'
    firstStripUrl = stripUrl % '30'
    help = 'Index format: n'


class IrregularWebcomic(_BasicScraper):
    url = 'http://www.irregularwebcomic.net/'
    stripUrl = url + '%s.html'
    firstStripUrl = stripUrl % '1'
    imageSearch = compile(r'<img .*src="(.*comics/.*(png|jpg|gif))".*>')
    prevSearch = compile(r'<a href="(/\d+\.html|/cgi-bin/comic\.pl\?comic=\d+)">Previous ')
    help = 'Index format: nnn'


class IslaAukate(_ParserScraper):
    url = 'https://overlordcomic.com/archive/default/latest'
    stripUrl = 'https://overlordcomic.com/archive/default/pages/%s'
    firstStripUrl = stripUrl % '001'
    imageSearch = '//div[@id="comicpage"]/img'
    prevSearch = '//nav[@class="comicnav"]/a[text()="Prev"]'

    def namer(self, imageUrl, pageUrl):
        filename = imageUrl.rsplit('/', 1)[-1]
        return filename.rsplit('_', 1)[0] + '.' + filename.rsplit('.', 1)[-1]


class IslaAukateColor(_ParserScraper):
    url = 'https://overlordcomic.com/archive/color/latest'
    stripUrl = 'https://overlordcomic.com/archive/color/pages/%s'
    firstStripUrl = stripUrl % '001'
    imageSearch = '//div[@id="comicpage"]/img'
    prevSearch = '//nav[@class="comicnav"]/a[text()="Prev"]'

    def namer(self, imageUrl, pageUrl):
        # Fix filenames of early comics
        filename = imageUrl.rsplit('/', 1)[-1]
        if filename[0].isdigit():
            filename = 'Aukate' + filename
        return filename.rsplit('_', 1)[0] + '.' + filename.rsplit('.', 1)[-1]


class ItsWalky(_WordPressScraper):
    url = 'http://www.itswalky.com/'
Update file headers The default encoding for source files is UTF-8 since Python 3, so we can drop all encoding headers. While we are at it, just replace them with SPDX headers. 2020-04-18 11:45:44 +00:00			`# SPDX-License-Identifier: MIT`
Fixup copyright years. 2016-10-28 22:21:41 +00:00			`# Copyright (C) 2004-2008 Tristan Seligmann and Jonathan Jacobs`
Updated copyright. 2014-01-05 15:50:57 +00:00			`# Copyright (C) 2012-2014 Bastian Kleineidam`
Add self to authors list, update copyright headers 2020-01-13 06:34:05 +00:00			`# Copyright (C) 2015-2020 Tobias Gruetzmacher`
			`# Copyright (C) 2019-2020 Daniel Ring`
Use re.escape and add some firstStripUrl. 2013-04-10 16:19:11 +00:00			`from re import compile, escape`
Move more comics to common WordPressScraper. 2016-04-10 21:04:34 +00:00
Add InsignificantOtters 2020-03-04 06:03:14 +00:00			`from ..helpers import indirectStarter`
Add IslaAukate and IslaAukateColor 2019-06-19 08:27:06 +00:00			`from ..scraper import _BasicScraper, _ParserScraper`
Updated documentation and fix some comics. 2012-11-20 17:53:53 +00:00			`from ..util import tagre`
Add InsignificantOtters 2020-03-04 06:03:14 +00:00			`from .common import _WordPressScraper, _WPNavi, _WPWebcomic`
Initial commit to Github. 2012-06-20 19:58:13 +00:00

Added some comic strips and cleanup the scraper code. 2013-03-06 19:00:30 +00:00			`class IAmArg(_BasicScraper):`
			`url = 'http://iamarg.com/'`
Use re.escape and add some firstStripUrl. 2013-04-10 16:19:11 +00:00			`rurl = escape(url)`
Added some comic strips and cleanup the scraper code. 2013-03-06 19:00:30 +00:00			`stripUrl = url + '%s/'`
			`firstStripUrl = stripUrl % '2011/05/08/05082011'`
Fixed IAmArg 2015-04-15 18:43:06 +00:00			`imageSearch = compile(tagre("img", "src", r'(//iamarg.com/comics/\d+-\d+-\d+[^"]+)'))`
Use re.escape and add some firstStripUrl. 2013-04-10 16:19:11 +00:00			`prevSearch = compile(tagre("a", "href", r'(%s\d+/\d+/\d+/[^"]+)' % rurl, after="prev"))`
Added some comic strips and cleanup the scraper code. 2013-03-06 19:00:30 +00:00			`help = 'Index format: yyyy/mm/dd/stripname'`


Add ICanBarelyDraw 2013-07-04 10:22:20 +00:00			`class ICanBarelyDraw(_BasicScraper):`
			`url = 'http://www.icanbarelydraw.com/comic/'`
			`rurl = escape(url)`
			`stripUrl = url + '%s'`
			`firstStripUrl = stripUrl % '39'`
			`imageSearch = compile(tagre("img", "src", r'(%scomics/\d+-\d+-\d+-[^"]+)' % rurl))`
			`prevSearch = compile(tagre("a", "href", r'(%s\d+)' % rurl))`
			`help = 'Index format: number'`


Remove make_scraper for most WordPress comics. - Dropped KatzenfutterGeleespritzer, because robots.txt. - Move all WordPress/ComicPress scrapers into alphabetical files. - Move _WordPressScraper & _ComicPress scraper into common.py. - Some smaller PEP8 fixes. 2016-04-01 22:14:31 +00:00			`class IDreamOfAJeanieBottle(_WordPressScraper):`
			`url = 'http://jeaniebottle.com/'`


Add InsignificantOtters 2020-03-04 06:03:14 +00:00			`class InsignificantOtters(_WPWebcomic):`
			`stripUrl = 'https://www.thedepthscomic.com/i-otters/%s/'`
			`firstStripUrl = stripUrl % 'page-1'`
			`url = firstStripUrl`
			`imageSearch = '//div[contains(@class, "webcomic-media")]//img'`
			`starter = indirectStarter`


Unify more WordPress-based modules. 2017-05-21 23:17:05 +00:00			`class InternetWebcomic(_WPNavi):`
Added EdmundFinney, Gaia, GaiaGerman, InternetWebcomic, NotInventedHere, RedsPlanet, RomanticallyApocalyptic, ScandinaviaAndTheWorld, TheGamerCat, Weregeek 2013-12-10 18:50:21 +00:00			`url = 'http://www.internet-webcomic.com/'`
			`stripUrl = url + '?p=%s'`
			`firstStripUrl = stripUrl % '30'`
			`help = 'Index format: n'`


Sort comics. 2013-03-06 19:21:10 +00:00			`class IrregularWebcomic(_BasicScraper):`
			`url = 'http://www.irregularwebcomic.net/'`
			`stripUrl = url + '%s.html'`
Add firstStripUrls. 2013-04-10 21:57:09 +00:00			`firstStripUrl = stripUrl % '1'`
Sort comics. 2013-03-06 19:21:10 +00:00			`imageSearch = compile(r'<img .src="(.comics/.(png\|jpg\|gif))".>')`
			`prevSearch = compile(r'<a href="(/\d+\.html\|/cgi-bin/comic\.pl\?comic=\d+)">Previous ')`
			`help = 'Index format: nnn'`
Remove make_scraper for most WordPress comics. - Dropped KatzenfutterGeleespritzer, because robots.txt. - Move all WordPress/ComicPress scrapers into alphabetical files. - Move _WordPressScraper & _ComicPress scraper into common.py. - Some smaller PEP8 fixes. 2016-04-01 22:14:31 +00:00

Add IslaAukate and IslaAukateColor 2019-06-19 08:27:06 +00:00			`class IslaAukate(_ParserScraper):`
			`url = 'https://overlordcomic.com/archive/default/latest'`
			`stripUrl = 'https://overlordcomic.com/archive/default/pages/%s'`
			`firstStripUrl = stripUrl % '001'`
			`imageSearch = '//div[@id="comicpage"]/img'`
			`prevSearch = '//nav[@class="comicnav"]/a[text()="Prev"]'`

Fix IslaAukate and IslaAukateColor 2020-04-11 23:51:08 +00:00			`def namer(self, imageUrl, pageUrl):`
			`filename = imageUrl.rsplit('/', 1)[-1]`
			`return filename.rsplit('_', 1)[0] + '.' + filename.rsplit('.', 1)[-1]`

Add IslaAukate and IslaAukateColor 2019-06-19 08:27:06 +00:00
			`class IslaAukateColor(_ParserScraper):`
			`url = 'https://overlordcomic.com/archive/color/latest'`
			`stripUrl = 'https://overlordcomic.com/archive/color/pages/%s'`
			`firstStripUrl = stripUrl % '001'`
			`imageSearch = '//div[@id="comicpage"]/img'`
			`prevSearch = '//nav[@class="comicnav"]/a[text()="Prev"]'`

			`def namer(self, imageUrl, pageUrl):`
			`# Fix filenames of early comics`
			`filename = imageUrl.rsplit('/', 1)[-1]`
			`if filename[0].isdigit():`
			`filename = 'Aukate' + filename`
Fix IslaAukate and IslaAukateColor 2020-04-11 23:51:08 +00:00			`return filename.rsplit('_', 1)[0] + '.' + filename.rsplit('.', 1)[-1]`
Add IslaAukate and IslaAukateColor 2019-06-19 08:27:06 +00:00

Remove make_scraper for most WordPress comics. - Dropped KatzenfutterGeleespritzer, because robots.txt. - Move all WordPress/ComicPress scrapers into alphabetical files. - Move _WordPressScraper & _ComicPress scraper into common.py. - Some smaller PEP8 fixes. 2016-04-01 22:14:31 +00:00			`class ItsWalky(_WordPressScraper):`
			`url = 'http://www.itswalky.com/'`