どうも、カメ助(@kamesuke_blog)です。
自分用に、Pythonのライブラリでよく使用するものをまとめておきます。
各ライブラリの概要
まず、自分の理解している範囲で各ライブラリ特徴と利用用途をまとめておきます。
各ライブラリの特徴
- BeaurifulSoup: HTMLやXMLのパースを行う(スクレイピングで使用)
- Matplotlib : グラフ描画を行う
- NumPy : 大規模な多次元配列や行列の演算を行う
- Pandas : 機械学習するための前処理を行う(データ読込、クリーニング、欠損値の補完、正規化など)
実際のデータ分析の流れ
機械学習のデータ分析では、以下の流れで処理を進めていくことが多いと思います。
BeautifulSoupについて
BeaurifulSoupはHTMLやXMLファイルを解析するためのライプラリです。WEBスクレイピングをする際に使用します。
Beautiful Soup はHTMLやXMLファイルからデータを取得するPythonのライブラリです。あなたの好きなパーサー(構文解析器)を使って、パースツリー(構文木)の探索、検索、修正を行います。 これはプログラマーの作業時間を大幅に短縮してくれます。
BeautifulSoupの日本語ガイドより引用
インポート
1 |
from bs4 import BeautifulSoup |
インストール
1 |
py -m pip install beautifulsoup4 |
インストールされているかの確認
1 |
py -m pip show beautifulsoup4 |
コマンドの実行結果
以下のように表示される場合、正常にインストールできています。
1 2 3 4 5 6 7 8 9 10 |
Name: beautifulsoup4 Version: 4.9.3 Summary: Screen-scraping library Home-page: http://www.crummy.com/software/BeautifulSoup/bs4/ Author: Leonard Richardson Author-email: leonardr@segfault.org License: MIT Location: c:\users\zeros\appdata\local\programs\python\python39\lib\site-packages Requires: soupsieve Required-by: |
Matplotlibについて
Matplotlibはデータをグラフ描画する際に使用します。
Matplotlibは、プログラミング言語Pythonおよびその科学計算用ライブラリNumPyのためのグラフ描画ライブラリである。オブジェクト指向のAPIを提供しており、様々な種類のグラフを描画する能力を持つ。
描画できるのは主に2次元のプロットだが、3次元プロットの機能も追加されてきている。
Matplotlibは、BSDスタイルのライセンスの下で配布されている。
Wikipediaより引用
インポート
1 |
import matplotlib.pyplot as plt |
インストール
1 |
py -m pip show Matplotlib |
インストールしているかの確認
1 |
py -m pip show Matplotlib |
コマンドの実行結果
以下のように表示される場合、正常にインストールできています。
1 2 3 4 5 6 7 8 9 10 |
Name: matplotlib Version: 3.4.0 Summary: Python plotting package Home-page: https://matplotlib.org Author: John D. Hunter, Michael Droettboom Author-email: matplotlib-users@python.org License: PSF Location: c:\users\zeros\appdata\local\programs\python\python39\lib\site-packages Requires: cycler, pillow, python-dateutil, pyparsing, numpy, kiwisolver Required-by: |
NumPyについて
NumPyは、プログラミング言語Pythonにおいて数値計算を効率的に行うための拡張モジュールである。効率的な数値計算を行うための型付きの多次元配列(例えばベクトルや行列などを表現できる)のサポートをPythonに加えるとともに、それらを操作するための大規模な高水準の数学関数ライブラリを提供する。
Wikipediaより引用
インポート
1 |
import numpy as np |
インストール
1 |
py -m pip install numpy |
インストールされているかの確認
1 |
py -m pip show numpy |
コマンドの実行結果
以下のように表示される場合、正常にインストールできています。
1 2 3 4 5 6 7 8 9 10 |
Name: numpy Version: 1.20.1 Summary: NumPy is the fundamental package for array computing with Python. Home-page: https://www.numpy.org Author: Travis E. Oliphant et al. Author-email: None License: BSD Location: c:\users\zeros\appdata\local\programs\python\python39\lib\site-packages Requires: Required-by: pandas, matplotlib |
Pandasについて
Pandasは、Pythonでデータ分析を効率的に行うためのライブラリです。Pandasはオープンソース(BSDライセンス)で公開されており、個人/商用問わず、誰でも無料で利用することができます。
Pandasを使うと、「データの読み込みや統計量の表示」「グラフ化」「データ分析」に関する作業を容易に行うことができるようになります。
また主要なコードはPythonまたはC言語で書かれており、Pythonだけでデータ分析を行うのと比較して、非常に高速に処理を行うことができます。
TechAcademyより引用
インポート
1 |
import pandas as pd |
インストール
1 |
py -m pip install pandas |
インストールされているかの確認
1 |
py -m pip show pandas |
コマンドの実行結果
以下のように表示される場合、正常にインストールできています。
1 2 3 4 5 6 7 8 9 10 |
Name: pandas Version: 1.2.3 Summary: Powerful data structures for data analysis, time series, and statistics Home-page: https://pandas.pydata.org Author: None Author-email: None License: BSD Location: c:\users\zeros\appdata\local\programs\python\python39\lib\site-packages Requires: pytz, python-dateutil, numpy Required-by: |
終わりに
今回はPythonのライブラリでよく使用するものをまとめました。
今後開発を進めるうえで、必要なライブラリが増えた場合は適宜更新していく予定です。
コメント