【Python】開発時に導入して個人的に便利だった事柄まとめ

はじまり#

リサちゃん

よしよし、これは便利だぞ。

135ml

以前の不満が解消されたな。

Pythonで便利な事柄まとめ#

僕が今までPythonを使ってきて、なんでこうなってるんだ訳わからん、こうだったら良いのに、とかとか思ってきてその都度ググっては、Pythonによる開発が楽になるようにある程度土壌は固まってきたような気はしています。

そこで、僕が現在Pythonの開発に導入してみて便利だと思った事柄をまとめましたので、便利そうだなと思ったら試してみてください。それではいきます。

1. Pythonのルートパスを設定する。#

Pythonの開発をしてその作ったツールをパッケージ化しようと思った時のことです。

パッケージ化しようとも思ってなかった時は、ソースコードがリポジトリのルートディレクトリに散乱していて、その中にあるmain.py的なやつを動くようにしていたわけなんですけど、パッケージ化しようとなるとそうは行きません。さすがにそんな汚い状態でパッケージ化したくはありません。

なので、main.pyも含めてPythonで動くファイルは全てsrc的なフォルダに入れて、テストコードが書かれているファイルはtests的なフォルダに入れましたとさ。そして、Pythonの開発を再開しようと思った矢先のことです。なぜか、さっきまで汚いながらも問題なく動いていたPythonファイル達は、ImportErrorが起こることで全く動かなくなったのです。（厳密に言うと、pytestが動かなくなった。）

srcフォルダにあるファイルを動かせば、testsフォルダにあるファイルが動かなくなる。かといってsrcとtestsを同じフォルダに配置するのも不細工な感じがしてしまう。一体どうすればいいんだ・・・。

そんな時にまるっとImportErrorを解決してくれたのが、pyproject.tomlでした。そいつをこんな感じのディレクトリ構造で設置します。

1
/
2
│  pyproject.toml
3
│
4
├─src
5
│    a.py
6
│    b.py
7
│
8
├─tests
9
│    test_a.py
10
│    test_b.py

そして、pyproject.tomlの中はこう書いておけばとりあえずは動くかと思います。

1
[tool.pytest.ini_options]
2
pythonpath = "src"
3
testpaths = ["tests",]

2. reuqrements.txtを開発用と本番用に分ける。#

Python用のパッケージを作ってそれをインストールする時に、開発の時に使っていたテスト用のライブラリやメモリ使用量などの測定に使っていたライブラリは不要です。なのでそれらのライブラリはパッケージをインストールした時には混ざっていないようにしたい。

そういう時には、requirements.txtに加えてrequirementsフォルダも作成しておいて、以下のようなディレクトリ構成で配置しておきます。

1
/
2
│  requirements.txt
3
│
4
├─requirements
5
│    common.txt
6
│    dev.txt
7
│    prod.txt
8
│

そして、それぞれのテキストファイルには以下のように書いておきます。 common.txtは例えばこのようにします。

1
PyGithub
2
functions_framework>=3.5.0

dev.txtは例えばこのようにします。

1
# requirements for development
2
-r common.txt
3
# List packages that are only used in the development environment below:
4
pytest
5
pytest-cov
6
pytest-mock
7
pytest-xdist
8
memory-profiler>=0.61.0

prod.txtは例えばこのようにします。

1
# requirements for production
2
-r common.txt
3
# List packages that are only used in the commercial environment below:

そしていつものrequirements.txtにはこのように書いておきます。

1
-r requirements/prod.txt

ちなみにこの方策はこちらの記事を参考にさせていただきました。

Qiita

requirements.txtを分割する - Qiita

ローカルの開発環境、開発コードの結合環境、商用環境など、1つのプロジェクトで環境ごとに複数のRequirements Fileを使いたいケースがあると思います。そんなときはファイルを分割しましょう。 …とこないだ知ったことをメモります。手順 Requirements ...

qiita.com

3. Pytest実行方法のあれこれ。#

Pythonで書いたソースコードを強固なものにするために、Pytestはとても有用です。そして、そのPytestをより便利なものにするために、Pytestに加えて以下のライブラリもインストールするようにしています。

1
pytest
2
pytest-cov
3
pytest-mock
4
pytest-xdist

pytest-cov: テスト実行後にカバレッジ（網羅率）を表示することが可能になります。
pytest-mock: テスト時にソースコードの中をモックしやすくするモジュールが追加されます。
pytest-xdist: テストを並列実行できるようにします。

例えば、カバレッジを取得するためには、以下のように実行しています。

1
python -m pytest --cov=src --cov-branch --tb=short

また、カバレッジの取得、およびテストを並列実行して速く終わらせたい時には、以下のように実行しています。

1
python -m pytest -n auto --cov=src --cov-branch --cov-report=html --tb=short

この他にもPytestを便利にする拡張ライブラリ的なものはあると思いますので、Pythonコードのテストをより迅速に行っていきたいですね。

4. 現在実行している関数の名前を取得する。#

ログを出力する際に、どの処理で出力されたログなのかを確認したいです。ログの冒頭に関数名を書いてもいいですが、既に書いた関数からコピペする際に、その冒頭に書いてある関数名を更新し忘れることも起こり得ます。

その抜け漏れを防止するために、inspectライブラリを呼び出して実行中の関数名をログに出力するようにします。inspectはPythonのビルトインライブラリです。

1
import inspect
2

3
func_name = inspect.currentframe().f_code.co_name
4
pprint(f"{func_name}: start processing into PostgreSQL...")

5. メモリの使用量を把握する。#

クラウド上にサーバレス関数をデプロイする際に、その関数がどれぐらいのメモリを使用するのかは把握しておく必要があります。その際に、関数内の各処理におけるメモリ使用率が確認できるmemory_profilerのライブラリを使います。

1
pip install memory-profiler

例えば、こんな感じで使います。

1
from memory_profiler import profile
2

3
with open("./memory_profiler.log", "w") as f:
4
    profile(execute, stream=f)()

6. 標準出力をファイルに残す。#

個人的なツールを作っていても、処理の内容が煩雑になってくると、テストコードを書きたくなってきます。

特に、APIを叩いてJSONを受け取ってどーのこーのする処理では、やはりテストコードを書いて、正常な挙動を担保するのと、実際にどんな動きになっているのかを確認できるようにしたいです。レコードの数も膨大になってくれば、スクリプトの挙動を個所で確認できるようにしたい。

そこで、処理の途中の標準出力をテキストファイルに出力できるようにして、テストデータを楽に作れるようにします。標準出力をテキストファイルに出力する処理って、以前は作っていなかったんですよね。

そこでPythonの標準出力先を変える設定に関して少し調べました。そしたら、少し気を付けた方が良い点が見つかりました。

Qiita

【Python】標準出力の出力先をファイルにする。 - Qiita

はじめに僕はiOSのPythonista3というAppで、よく寝っ転がりながらPythonするのですが、モジュールのヘルプを見ても英語がわからないのでGoogle翻訳が欠かせません。一度、調べたこともすぐに忘れてしまうので、原文と翻訳テキストを保存しておくことにしまし...

qiita.com

Pythonの標準出力をテキストファイルに出力する時に、sys.stdoutを避難させておくと、コンソールに出力できなくなる事故を防げます。

1
outputs_stdout_to_file = True
2
STDOUT = sys.stdout
3
try:
4
  if outputs_stdout_to_file:
5
    sys.stdout = open("./tmp_log.txt", "w")
6
  with open("./memory_profiler.log", "w") as f:
7
    profile(execute, stream=f)()
8
except Exception as e:
9
  raise e
10
finally:
11
  sys.stdout = STDOUT

普通は、sys.stdout = sys.stdoutで戻せるらしくて、環境起因の稀な事象らしいんですけど、自分がもしもそんな事故に引っ掛かってしまったら面倒なので、知っておいて良かったです。

7. NemotronでDocstringを作る。#

PythonのDocstringも書いていきたくて、Sphinxで利用できるreStructuredText styleで書きたいんですけど、色々な大規模言語モデルにそのスタイルでDocstringを書くように頼んでも全然書いてくれないんですよね。

エンドルフィン風呂に浸かる。

【Python】大規模言語モデル達の間ではReStructuredTextスタイルはあまり知られていないらしい

大規模言語モデルはPythonのSphinx用のReStructuredTextスタイルのdocstringを生成させる記事になります。汎用大規模言語モデルにも得手不得手があるようです。

www.endorphinbath.com

そこで、NVIDIAが作ったLlama-3.1ベースの大規模言語モデルであるNemorton-70B-InstructにreStructuredTextスタイルでPythonのDocstringを書かせたら、今までの中で最も良い感じです。

NVIDIA NIM

llama-3.1-nemotron-70b-instruct Model by NVIDIA | NVIDIA NIM

Llama-3.1-Nemotron-70B-Instruct is a large language model customized by NVIDIA in order to improve the helpfulness of LLM generated responses.

build.nvidia.com

しかし、内容物が長過ぎるのが欠点かも。まあ、LLMをトレーニングする合成データの生成のために作られたAIなので、少しおしゃべり好きな部分があるのかもしれません。

Add Docstring with reStructuredText style into following Python script. Write it over here too.

1
"""
2
Execute Database Operations on a PostgreSQL Database
3

4
This function executes a given SQL query on a PostgreSQL database engine.
5
It optionally accepts a list of records to be inserted into the database
6
if the query is designed for insertion operations.
7

8
:param engine: A SQLAlchemy database engine instance connected to a PostgreSQL database.
9
:type engine: sqlalchemy.engine.base.Engine
10
:param query: The SQL query to be executed. For insert operations, the query should specify columns, e.g., ``INSERT INTO table (column1, column2) VALUES (:column1, :column2)``.
11
:type query: str
12
:param records: Optional list of lists containing data to be inserted. Each inner list represents a row, with elements corresponding to the columns specified in the query.
13
:type records: List[List[any]], optional (default is None)
14

15
:Example:
16

17
    .. code-block:: python
18

19
        from sqlalchemy import create_engine
20
        from typing import List, Any
21

22
        # Assuming 'sqlalchemy' and necessary dependencies are installed
23
        engine = create_engine('postgresql://user:password@localhost/dbname')
24

25
        # Example query for insertion with specified columns
26
        insert_query = "INSERT INTO mytable (id, name) VALUES (:id, :name)"
27

28
        # Sample records to insert
29
        records_to_insert = [[1, 'John Doe'], [2, 'Jane Doe']]
30

31
        execute_db_ops(engine, insert_query, records_to_insert)
32

33
        # Execute a query without records (e.g., SELECT, UPDATE, DELETE)
34
        select_query = "SELECT * FROM mytable"
35
        execute_db_ops(engine, select_query)
36
"""

まとめ#

今回は、Pythonで開発する時に導入してみて個人的に便利だった事柄をまとめて紹介しました。

上記のライブラリやファイルを導入して、快適に開発ができるようになりました。他にも開発が楽になるようなコツはないかなあ。

おしまい#