dosage/scripts/scriptutil.py

# SPDX-License-Identifier: MIT
# Copyright (C) 2004-2008 Tristan Seligmann and Jonathan Jacobs
# Copyright (C) 2012-2014 Bastian Kleineidam
# Copyright (C) 2015-2022 Tobias Gruetzmacher
import codecs
import html
import json
import os
import re
import sys
import time

import lxml

from dosagelib.scraper import scrapers
from dosagelib.util import get_page
from dosagelib import http


def first_lower(x):
    return x[0].lower()


class ComicListUpdater(object):
    dup_templates: tuple[str, ...] = ()
    excluded_comics: tuple[str, ...] = ()

    START = "# START AUTOUPDATE"
    END = "# END AUTOUPDATE"

    def __init__(self, name: str):
        self.json = name.replace(".py", ".json")
        self.session = http.default_session
        self.sleep = 0

    def get_url(self, url: str, expand=True):
        """Get an HTML page and parse it with LXML."""
        print("Parsing", url, file=sys.stderr)
        try:
            pagetext = get_page(url, self.session).text
            data = lxml.html.document_fromstring(pagetext)
            if expand:
                data.make_links_absolute(url)
            if self.sleep > 0:
                time.sleep(self.sleep)
            return data
        except IOError as msg:
            print("ERROR:", msg, file=sys.stderr)
            raise

    def should_skip(self, name: str):
        if contains_case_insensitive(self.res, name):
            # we cannot handle two comics that only differ in case
            print("INFO: skipping possible duplicate", repr(name),
                  file=sys.stderr)
            return True
        return False

    def get_results(self):
        """Collect comics and save dictionary in JSON file."""
        self.res = {}
        self.collect_results()

        if not self.res:
            print("ERROR:", "did not match any comics", file=sys.stderr)
            return

        with codecs.open(self.json, 'wb', 'utf-8') as f:
            json.dump(self.res, f, sort_keys=True, indent=2,
                      separators=(',', ': '))

    def add_comic(self, name: str, data, count=None):
        """Add a collected comic with a specific number of comics."""
        name = format_name(name)
        if not self.should_skip(name):
            self.res[name] = {'count': count, 'data': data}
            return True
        return False

    def collect_results(self):
        raise NotImplementedError

    def print_results(self, args):
        """Print all comics that have at least the given number of minimum
        comic strips."""
        min_comics, filename = args
        min_comics = int(min_comics)
        oldf = codecs.open(filename, 'r', 'utf-8')
        newf = codecs.open(filename + '.new', 'w', 'utf-8')
        with oldf, newf:
            indent = self.copy_until_start(oldf, newf)
            with codecs.open(self.json, 'rb', 'utf-8') as f:
                data = json.load(f)
            for name, entry in sorted(data.items(), key=first_lower):
                self.write_entry(newf, name, entry, min_comics, indent)
            self.copy_after_end(oldf, newf)
        os.replace(filename + '.new', filename)

    def copy_until_start(self, src, dest):
        for line in src:
            dest.write(line)
            if line.strip().startswith(self.START):
                return line.find(self.START)
        raise RuntimeError("can't find start marker!")

    def copy_after_end(self, src, dest):
        skip = True
        for line in src:
            if line.strip().startswith(self.END):
                skip = False
            if not skip:
                dest.write(line)
        if skip:
            raise RuntimeError("can't find end marker!")

    def write_entry(self, fp, name, entry, min_comics, indent):
        if name in self.excluded_comics:
            return
        count = entry['count']
        if count and count < min_comics:
            return
        dup = self.find_dups(name)
        fp.write(" " * indent)
        if dup is not None:
            fp.write(u"# %s has a duplicate in %s\n" % (name, dup))
        else:
            fp.write(self.get_entry(
                truncate_name(name),
                entry['data']).replace("\n", "\n" + (" " * indent)) + "\n")

    def find_dups(self, name):
        """Check if comic name already exists."""
        names = [(tmpl % name).lower() for tmpl in self.dup_templates]
        if names:
            for scraper in scrapers.all():
                lname = scraper.name.lower()
                if lname in names:
                    return scraper.name
        return None

    def get_entry(self, name, data):
        """Return an entry for the module generator."""
        raise NotImplementedError

    def run(self):
        if len(sys.argv) > 1:
            self.print_results(sys.argv[1:])
        else:
            self.get_results()


def contains_case_insensitive(adict, akey):
    """Check if key is in adict. The search is case insensitive."""
    for key in adict:
        if key.lower() == akey.lower():
            return True
    return False


def capfirst(text):
    """Uppercase the first character of text."""
    if not text:
        return text
    return text[0].upper() + text[1:]


def save_result(res, json_file):
    """Save result to file."""
    with codecs.open(json_file, 'wb', 'utf-8') as f:
        json.dump(res, f, sort_keys=True, indent=2, separators=(',', ': '))


def load_result(json_file):
    """Load contents of a json file."""
    with codecs.open(json_file, 'rb', 'utf-8') as f:
        return json.load(f)


def truncate_name(text):
    """Ensure the comic name does not exceed 50 characters."""
    return text[:50]


def asciify(name):
    """Remove non-ascii characters from string."""
    return re.sub("[^0-9a-zA-Z_]", "", name)


TRANS = str.maketrans({
    '&': 'And',
    '@': 'At',
    'ñ': 'n',
    'á': 'a',
})


def format_name(text):
    """Format a comic name."""
    name = html.unescape(text)
    name = "".join(capfirst(x) for x in name.split(" "))
    return asciify(name.translate(TRANS))
Update file headers The default encoding for source files is UTF-8 since Python 3, so we can drop all encoding headers. While we are at it, just replace them with SPDX headers. 2020-04-18 11:45:44 +00:00			`# SPDX-License-Identifier: MIT`
Fixup copyright years. 2016-10-28 22:21:41 +00:00			`# Copyright (C) 2004-2008 Tristan Seligmann and Jonathan Jacobs`
Updated copyright. 2014-01-05 15:50:57 +00:00			`# Copyright (C) 2012-2014 Bastian Kleineidam`
Update GoComics module 2022-06-05 18:23:56 +00:00			`# Copyright (C) 2015-2022 Tobias Gruetzmacher`
Drop Python 2 support: six & other imports 2020-02-03 00:03:31 +00:00			`import codecs`
Remove (useless) wrapper around html.unescape 2020-04-12 23:53:45 +00:00			`import html`
Drop Python 2 support: six & other imports 2020-02-03 00:03:31 +00:00			`import json`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00			`import os`
Clean up update helper scripts. 2016-04-12 22:52:16 +00:00			`import re`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00			`import sys`
Allow setting a crawl delay in update scripts. 2017-02-12 21:36:06 +00:00			`import time`
Make auto-update script more flexible. 2016-05-22 20:55:06 +00:00
Remove (useless) wrapper around html.unescape 2020-04-12 23:53:45 +00:00			`import lxml`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00
Convert scraper cache to a class This should make it easier to extend with additional entries. 2020-10-01 16:49:14 +00:00			`from dosagelib.scraper import scrapers`
Remove (useless) wrapper around html.unescape 2020-04-12 23:53:45 +00:00			`from dosagelib.util import get_page`
Convert scraper cache to a class This should make it easier to extend with additional entries. 2020-10-01 16:49:14 +00:00			`from dosagelib import http`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00

			`def first_lower(x):`
			`return x[0].lower()`


			`class ComicListUpdater(object):`
Update GoComics module 2022-06-05 18:23:56 +00:00			`dup_templates: tuple[str, ...] = ()`
			`excluded_comics: tuple[str, ...] = ()`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00
Make auto-update script more flexible. 2016-05-22 20:55:06 +00:00			`START = "# START AUTOUPDATE"`
			`END = "# END AUTOUPDATE"`

Update GoComics module 2022-06-05 18:23:56 +00:00			`def __init__(self, name: str):`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00			`self.json = name.replace(".py", ".json")`
Move basic HTTP setup into a new module We now subclass requests' Session to make further extensions of the HTTP flow possible. 2019-12-03 19:27:37 +00:00			`self.session = http.default_session`
Allow setting a crawl delay in update scripts. 2017-02-12 21:36:06 +00:00			`self.sleep = 0`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00
Update GoComics module 2022-06-05 18:23:56 +00:00			`def get_url(self, url: str, expand=True):`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00			`"""Get an HTML page and parse it with LXML."""`
			`print("Parsing", url, file=sys.stderr)`
			`try:`
Remove (useless) wrapper around html.unescape 2020-04-12 23:53:45 +00:00			`pagetext = get_page(url, self.session).text`
			`data = lxml.html.document_fromstring(pagetext)`
Update GoComics. 2016-04-14 22:26:14 +00:00			`if expand:`
			`data.make_links_absolute(url)`
Allow setting a crawl delay in update scripts. 2017-02-12 21:36:06 +00:00			`if self.sleep > 0:`
			`time.sleep(self.sleep)`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00			`return data`
			`except IOError as msg:`
			`print("ERROR:", msg, file=sys.stderr)`
			`raise`

Update GoComics module 2022-06-05 18:23:56 +00:00			`def should_skip(self, name: str):`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00			`if contains_case_insensitive(self.res, name):`
			`# we cannot handle two comics that only differ in case`
			`print("INFO: skipping possible duplicate", repr(name),`
			`file=sys.stderr)`
			`return True`
			`return False`

			`def get_results(self):`
			`"""Collect comics and save dictionary in JSON file."""`
			`self.res = {}`
			`self.collect_results()`

			`if not self.res:`
			`print("ERROR:", "did not match any comics", file=sys.stderr)`
			`return`

			`with codecs.open(self.json, 'wb', 'utf-8') as f:`
			`json.dump(self.res, f, sort_keys=True, indent=2,`
			`separators=(',', ': '))`

Search for spanish comics on ComicsKingdom (fixes #165) 2022-06-05 22:20:12 +00:00			`def add_comic(self, name: str, data, count=None):`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00			`"""Add a collected comic with a specific number of comics."""`
			`name = format_name(name)`
			`if not self.should_skip(name):`
			`self.res[name] = {'count': count, 'data': data}`
Search for spanish comics on ComicsKingdom (fixes #165) 2022-06-05 22:20:12 +00:00			`return True`
			`return False`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00
			`def collect_results(self):`
			`raise NotImplementedError`

			`def print_results(self, args):`
			`"""Print all comics that have at least the given number of minimum`
			`comic strips."""`
			`min_comics, filename = args`
			`min_comics = int(min_comics)`
Make auto-update script more flexible. 2016-05-22 20:55:06 +00:00			`oldf = codecs.open(filename, 'r', 'utf-8')`
			`newf = codecs.open(filename + '.new', 'w', 'utf-8')`
			`with oldf, newf:`
			`indent = self.copy_until_start(oldf, newf)`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00			`with codecs.open(self.json, 'rb', 'utf-8') as f:`
			`data = json.load(f)`
			`for name, entry in sorted(data.items(), key=first_lower):`
Make auto-update script more flexible. 2016-05-22 20:55:06 +00:00			`self.write_entry(newf, name, entry, min_comics, indent)`
			`self.copy_after_end(oldf, newf)`
Drop Python 2 support: six & other imports 2020-02-03 00:03:31 +00:00			`os.replace(filename + '.new', filename)`
Make auto-update script more flexible. 2016-05-22 20:55:06 +00:00
			`def copy_until_start(self, src, dest):`
			`for line in src:`
			`dest.write(line)`
			`if line.strip().startswith(self.START):`
			`return line.find(self.START)`
			`raise RuntimeError("can't find start marker!")`

			`def copy_after_end(self, src, dest):`
			`skip = True`
			`for line in src:`
			`if line.strip().startswith(self.END):`
			`skip = False`
			`if not skip:`
			`dest.write(line)`
			`if skip:`
			`raise RuntimeError("can't find end marker!")`

			`def write_entry(self, fp, name, entry, min_comics, indent):`
			`if name in self.excluded_comics:`
			`return`
			`count = entry['count']`
			`if count and count < min_comics:`
			`return`
			`dup = self.find_dups(name)`
			`fp.write(" " * indent)`
			`if dup is not None:`
			`fp.write(u"# %s has a duplicate in %s\n" % (name, dup))`
			`else:`
			`fp.write(self.get_entry(`
			`truncate_name(name),`
			`entry['data']).replace("\n", "\n" + (" " * indent)) + "\n")`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00
			`def find_dups(self, name):`
			`"""Check if comic name already exists."""`
			`names = [(tmpl % name).lower() for tmpl in self.dup_templates]`
			`if names:`
Search for spanish comics on ComicsKingdom (fixes #165) 2022-06-05 22:20:12 +00:00			`for scraper in scrapers.all():`
			`lname = scraper.name.lower()`
Update ComicFury. 2016-04-16 11:13:47 +00:00			`if lname in names:`
Search for spanish comics on ComicsKingdom (fixes #165) 2022-06-05 22:20:12 +00:00			`return scraper.name`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00			`return None`

Make auto-update script more flexible. 2016-05-22 20:55:06 +00:00			`def get_entry(self, name, data):`
			`"""Return an entry for the module generator."""`
Refactor update helpers: Remove duplicate code. 2016-04-14 20:22:37 +00:00			`raise NotImplementedError`

			`def run(self):`
			`if len(sys.argv) > 1:`
			`self.print_results(sys.argv[1:])`
			`else:`
			`self.get_results()`
Clean up scriptutil.py. Having comic module names with more then 50 characters is quite ridiculous. 2016-03-03 22:08:51 +00:00
Add comic excludes in scripts. 2012-11-29 05:46:58 +00:00
			`def contains_case_insensitive(adict, akey):`
Code cleanup. 2012-12-19 19:42:53 +00:00			`"""Check if key is in adict. The search is case insensitive."""`
Add comic excludes in scripts. 2012-11-29 05:46:58 +00:00			`for key in adict:`
			`if key.lower() == akey.lower():`
			`return True`
			`return False`

Various fixes and additions. 2012-12-12 16:41:29 +00:00
			`def capfirst(text):`
			`"""Uppercase the first character of text."""`
			`if not text:`
			`return text`
			`return text[0].upper() + text[1:]`


Code cleanup. 2012-12-19 19:42:53 +00:00			`def save_result(res, json_file):`
			`"""Save result to file."""`
Encode JSON cache as UTF-8. 2016-03-31 21:25:53 +00:00			`with codecs.open(json_file, 'wb', 'utf-8') as f:`
Clean up scriptutil.py. Having comic module names with more then 50 characters is quite ridiculous. 2016-03-03 22:08:51 +00:00			`json.dump(res, f, sort_keys=True, indent=2, separators=(',', ': '))`
Code cleanup. 2012-12-19 19:42:53 +00:00

			`def load_result(json_file):`
Truncate generated comic names. 2013-01-09 21:20:03 +00:00			`"""Load contents of a json file."""`
Encode JSON cache as UTF-8. 2016-03-31 21:25:53 +00:00			`with codecs.open(json_file, 'rb', 'utf-8') as f:`
Code cleanup. 2012-12-19 19:42:53 +00:00			`return json.load(f)`
Truncate generated comic names. 2013-01-09 21:20:03 +00:00

			`def truncate_name(text):`
Clean up scriptutil.py. Having comic module names with more then 50 characters is quite ridiculous. 2016-03-03 22:08:51 +00:00			`"""Ensure the comic name does not exceed 50 characters."""`
			`return text[:50]`
Add some scriptsutil functions. 2013-02-13 19:02:47 +00:00

Clean up update helper scripts. 2016-04-12 22:52:16 +00:00			`def asciify(name):`
			`"""Remove non-ascii characters from string."""`
			`return re.sub("[^0-9a-zA-Z_]", "", name)`


Update GoComics modules The usual: GoComics removed some comics, added some and renamed some... 2020-09-27 23:15:07 +00:00			`TRANS = str.maketrans({`
			`'&': 'And',`
			`'@': 'At',`
			`'ñ': 'n',`
			`'á': 'a',`
			`})`


Add some scriptsutil functions. 2013-02-13 19:02:47 +00:00			`def format_name(text):`
			`"""Format a comic name."""`
Remove (useless) wrapper around html.unescape 2020-04-12 23:53:45 +00:00			`name = html.unescape(text)`
Move WebcomicFactory in its own module. Also, add an updater script for it. 2016-04-03 19:31:56 +00:00			`name = "".join(capfirst(x) for x in name.split(" "))`
Stricter style checking & related style fixes 2020-10-11 18:15:27 +00:00			`return asciify(name.translate(TRANS))`