チュウトリアルについての独りよがりな無駄話

初回公開：2019/01/20
最終更新：未

「チュウトリアル: Python MarkdownのExtensionを記述する」についての補足を。

【　目次　】

チュウトリアルについての独りよがりな無駄話

Extensionを作るための関連記事など

Extensions APIのリファレンス，公式ドキュメント。

Extensions API — Python Markdown

それを当サイトで翻訳したのが

Python-Markdown extensionを記述する（つたない翻訳） - 愚鈍人

Extensions APIのリファレンスだけではわかりずらいので、
チュウトリアルのドキュメントも，

Tutorial: Writing Extensions for Python Markdown · Python-Markdown/markdown Wiki · GitHub

このチュウトリアルを当サイトで翻訳したのが

チュウトリアル: Python MarkdownのExtensionを記述する - 愚鈍人

上記のチュウトリアルと同じような内容が他にも

上記の参考サイトの中でもおもにチュウトリアルの内容についてさらに疑問な点がでてきて...
そこで独りよがりな補足を加えてみることにした。

strongとかemタグというのは

この記事に出てくるstrongとかemタグというのは

文字を強調するタグstrong・b・em・iの違いとSEO効果｜なんでものびるWEB

html strong bold 違い

チュウトリアルで実装する機能

txt2tagsというマークアップ言語というかソフトウェアーがあって、そのtxt2tagsでサポートされているインライン構文の以下のようなサブセットの機能を実装を試みているようだ。

ストライキ・2つのハイフン：--del--=><del>del</del>=>~~del~~
アンダーライン・2つの下線：__ins__=><ins>ins</ins>=>ins
太字・2つのアスタリスク：**strong**=><strong>strong</strong>=>strong
イタリック体・2つのスラッシュ：//emphasis//=><em>emphasis</em>=>emphasis

txt2tags

本題から離れるが、txt2tagsというマークアップ言語というかソフトウェアーがある。
txt2tagsはmarkdownと同様にテキストをhtmlに変換するツールのようで、

英語版のWikipediaによると

txt2tags - Wikipedia

txt2tags is a document generator software that uses a lightweight markup language. txt2tags is free software under GNU General Public License

txt2tagsはhtml形式だけでなくいろいろなドキュメント形式に対応しているようで

テキストから各種ドキュメントへ変換する·txt2tags MOONGIFT

今回紹介するオープンソース・ソフトウェアはtxt2tags、一つのテキストフォーマットから各種文書形式に変換するソフトウェアだ。
txt2tagsはすでに7年も開発が行われているソフトウェアで、テキスト文書から各種ドキュメントに変換する機能がある。
txt2tags [ja.nishimotz.com]

txt2tags は nvda で HTML ドキュメントの生成に使われているツール。

NVDAというのは

NVDA [ja.nishimotz.com]

NVDA はオープンソースの Windows 対応スクリーンリーダーである。

さらに、スクリーンリーダーというのは

スクリーンリーダー - Wikipedia

スクリーンリーダー（英語: screen reader）とは、コンピュータの画面読み上げソフトウェアである。視覚障害者がパーソナルコンピュータを操作するために、視覚的に使うことが必要であるマウスに変わり、情報を音声で読み上げることによって、操作を補助するアクセシビリティである。

txt2tagsの使い方については

とりぷるぷぅ技術メモ: txt2tags

ボイラープレートコード(Boilerplate Code)って何？

ボイラープレートコード(Boilerplate Code)というのがあって

ボイラープレート - boilerplate | プログラマメモ2

ボイラープレートとは、《お決まりのソースコード断片》とかそんな意味のようです。

extensionsを記述するためのお決まりのコードの事みたい。

7.7. ボイラープレートコードの排除(Lombok) — TERASOLUNA Server Framework for Java (5.x) Development Guideline 5.0.0.RELEASE documentation

markdownとは関係無いがJavaのコードって冗長な部分が多いと思う。
セッター，ゲッターは典型的な例で、rubyだとかC#ならもっと綺麗に書けるし、pythonにはクラスのメンバーをセッター，ゲッターでくるむなんて慣習はないし。
Javaって他にも、やたらとインターフェースを多用したり退屈なとコーディングが多いと思っている私は異端？

「HTML5 Boilerplate」なんてゆうのも

汎用パターンクラスSimpleTextPatternでの正規表現の使われ方

オカレンスとは

オカレンスとは | AGARU

正規表現のグループ化

正規表現のグループ化というのは

正規表現 HOWTO — Python 3.6.3 ドキュメント

貪欲なマッチと貪欲でないマッチ

貪欲なマッチは最長一致，，そして貪欲でないマッチとは最短一致。

貪欲でない正規表現 at softelメモ

欲張りなマッチと控え目なマッチとも言うのかな

欲張りなマッチと控え目なマッチ(量指定子?) - 任意の文字と繰り返し(量指定子) - Ruby正規表現の使い方

また、貪欲でないマッチは非貪欲なマッチとも呼ばれる。
最長一致，最短一致は

`group(3)`に何故テキストコンテンツが含まれるのか？

チュウトリアルでは--del--構文で<del>タグでテキストをラップするための正規表現が以下のように定義されている。

DEL_RE = r'(--)(.*?)--'

正規表現のgroup(3)にテキストコンテンツが含まれるとあるが、この正規表現だけをみると奇妙なことに感じられる。
単純に考えれば、group(1)には最初のカッコでくくられた--が，そしてgroup(2)にテキストコンテンツがはいるはずである。

Pythonで個人的によく使う正規表現モジュールの機能 - Qiita

print(m.group(0)) #マッチした箇所全体(m.group()と等価?)
print(m.group(1)) #1番目のグループ
print(m.group(2)) #2番目のグループ
print(m.groups()) #グループ全体をタプルで

実際に使われる正規表現は、Python-marakdowwnのソースコード(inlinepatterns.py)をのぞいてみると、
SimpleTextPatternの親クラスであるPatternクラスのコンストラクタ__init__メソッドのなかで次のように記述されている。

        self.compiled_re = re.compile(r"^(.*?)%s(.*)$" % pattern,
                                      re.DOTALL | re.UNICODE)

つまり、正規表現文字列DEL_REはそのまま使われるのでは無く、前後に別の正規表現が追加されるため結果的にgroup(3)にテキストコンテンツが含まれる事になる。

'>not_strong'は何を意味するか

チュウトリアルにおけるMyExtensionのコードでは

        # delタグPatternオブジェクトをmarkdownパーサーに追加
        md.inlinePatterns.add('del', del_tag, '>not_strong')

この、inlinePatternsのaddメソッドの３つ目の引数'>not_strong'は何を意味するのであろうか？

extendMarkdownメソッドの引数mdはMarkdownクラスのインスタンスでありinlinePatternsメンバーを持っている。
inlinePatternsはOrderedDictクラスのインスタンスで順序付きの辞書オブジェクトとして機能する。
そして、OrderedDictsクラスのaddメソッドの３つ目の引数'>not_strong'は何を意味しているかというと、not_strongキーの要素の後にdel_tagを挿入しなさいという意味になる。

Markdown記法をhtmlタグに変換する際に、どのMarkdown記法から順番に処理をするかによって結果が変わってしまう為、処理の順番の指定が必要になるという事になる。

以下のようなMyExtensionクラスとそれを利用するモジュールを作成して

from markdown.extensions import Extension
from markdown.inlinepatterns import SimpleTagPattern

DEL_RE = r'(--)(.*?)--'

class MyExtension(Extension):
    def extendMarkdown(self, md, md_globals):
        del_tag = SimpleTagPattern(DEL_RE, 'del')
        md.inlinePatterns.add('del', del_tag, '>not_strong')

        import pprint
        pprint.pprint(md.inlinePatterns.items())

def makeExtension(*args, **kwargs):
    return MyExtension(*args, **kwargs)

import markdown
from my_extention2 import MyExtension

print markdown.markdown('foo bar', extensions=[MyExtension()])

inlinePatternsがどのような順番で登録されているかを確認すると

実行結果

[(u'backtick', <markdown.inlinepatterns.BacktickPattern object at 0x02A8D190>),
 (u'escape', <markdown.inlinepatterns.EscapePattern object at 0x02A8D1B0>),
 (u'reference',
  <markdown.inlinepatterns.ReferencePattern object at 0x02A8D1D0>),
 (u'link', <markdown.inlinepatterns.LinkPattern object at 0x02A8D1F0>),
 (u'image_link', <markdown.inlinepatterns.ImagePattern object at 0x02A8D210>),
 (u'image_reference',
  <markdown.inlinepatterns.ImageReferencePattern object at 0x02A8D230>),
 (u'short_reference',
  <markdown.inlinepatterns.ReferencePattern object at 0x02A8D250>),
 (u'autolink', <markdown.inlinepatterns.AutolinkPattern object at 0x02A8D270>),
 (u'automail', <markdown.inlinepatterns.AutomailPattern object at 0x02A8D290>),
 (u'linebreak',
  <markdown.inlinepatterns.SubstituteTagPattern object at 0x02A8D2B0>),
 (u'html', <markdown.inlinepatterns.HtmlPattern object at 0x02A8D2F0>),
 (u'entity', <markdown.inlinepatterns.HtmlPattern object at 0x02A8D310>),
 (u'not_strong',
  <markdown.inlinepatterns.SimpleTextPattern object at 0x02A8D330>),
 ('del', <markdown.inlinepatterns.SimpleTagPattern object at 0x02A8D4D0>),
 (u'em_strong',
  <markdown.inlinepatterns.DoubleTagPattern object at 0x02A8D350>),
 (u'strong_em',
  <markdown.inlinepatterns.DoubleTagPattern object at 0x02A8D370>),
 (u'strong', <markdown.inlinepatterns.SimpleTagPattern object at 0x02A8D390>),
 (u'emphasis',
  <markdown.inlinepatterns.SimpleTagPattern object at 0x02A8D3B0>),
 (u'emphasis2',
  <markdown.inlinepatterns.SimpleTagPattern object at 0x02A8D3D0>)]
<p>foo bar</p>

delキーがnot_strongキーの後に挿入されているのがわかる。
つまり、marakdown記法がこの順に処理をされ、 marakdown記法の優先順位が決定されることになる。

OrderedDictはmarkdownパッケージに含まれているが

Python-Markdown extensionを記述する（つたない翻訳） - 愚鈍人

markdownパッケージだけでなくpython2.7や

8.3. collections — 高性能なコンテナ・データ型 — Python 2.7.14 ドキュメント

python 3.6でも

8.3. collections — コンテナデータ型 — Python 3.6.5 ドキュメント

使う事ができる。

Extensionを文字列として指定 - ファイルmdx_xxxについて

名前によるExtensionモジュールの呼び出しにおいて、Extensionモジュールが存在しない場合当然エラーになるのだが

my_extention_test_byname.py

import markdown
print markdown.markdown('foo bar', extensions=["myextention"])

その時に表示されるエラーメッセージは