【Python】よく使用するライブラリまとめ(BeautifulSoup、NumPy、Matplotlib、Pandasなど)

どうも、カメ助(@kamesuke_blog)です。

自分用に、Pythonのライブラリでよく使用するものをまとめておきます。

目次

各ライブラリの概要

まず、自分の理解している範囲で各ライブラリ特徴と利用用途をまとめておきます。

各ライブラリの特徴

各ライブラリの特徴
  • BeaurifulSoup: HTMLやXMLのパースを行う(スクレイピングで使用)
  • Matplotlib  : グラフ描画を行う
  • NumPy    : 大規模な多次元配列や行列の演算を行う
  • Pandas    : 機械学習するための前処理を行う(データ読込、クリーニング、欠損値の補完、正規化など)

実際のデータ分析の流れ

機械学習のデータ分析では、以下の流れで処理を進めていくことが多いと思います。

機械学習のデータ分析の流れ

BeautifulSoupについて

BeautifulSoupのロゴ

BeaurifulSoupはHTMLやXMLファイルを解析するためのライプラリです。WEBスクレイピングをする際に使用します。

Beautiful Soup はHTMLやXMLファイルからデータを取得するPythonのライブラリです。あなたの好きなパーサー(構文解析器)を使って、パースツリー(構文木)の探索、検索、修正を行います。 これはプログラマーの作業時間を大幅に短縮してくれます。

BeautifulSoupの日本語ガイドより引用

インポート

インストール

インストールされているかの確認

コマンドの実行結果

以下のように表示される場合、正常にインストールできています。

Matplotlibについて

matplotlibのロゴ

Matplotlibはデータをグラフ描画する際に使用します。

Matplotlibは、プログラミング言語Pythonおよびその科学計算用ライブラリNumPyのためのグラフ描画ライブラリである。オブジェクト指向APIを提供しており、様々な種類のグラフを描画する能力を持つ。

描画できるのは主に2次元のプロットだが、3次元プロットの機能も追加されてきている。

Matplotlibは、BSDスタイルのライセンスの下で配布されている。

Wikipediaより引用

インポート

インストール

インストールしているかの確認

コマンドの実行結果

以下のように表示される場合、正常にインストールできています。

NumPyについて

NumPyのロゴ

NumPyは、プログラミング言語Pythonにおいて数値計算を効率的に行うための拡張モジュールである。効率的な数値計算を行うための型付きの多次元配列(例えばベクトルや行列などを表現できる)のサポートをPythonに加えるとともに、それらを操作するための大規模な高水準の数学関数ライブラリを提供する。

Wikipediaより引用

インポート

インストール

インストールされているかの確認

コマンドの実行結果

以下のように表示される場合、正常にインストールできています。

Pandasについて

Pandasのロゴ

Pandasは、Pythonでデータ分析を効率的に行うためのライブラリです。Pandasはオープンソース(BSDライセンス)で公開されており、個人/商用問わず、誰でも無料で利用することができます。

Pandasを使うと、「データの読み込みや統計量の表示」「グラフ化」「データ分析」に関する作業を容易に行うことができるようになります。

また主要なコードはPythonまたはC言語で書かれており、Pythonだけでデータ分析を行うのと比較して、非常に高速に処理を行うことができます。

TechAcademyより引用

インポート

インストール

インストールされているかの確認

コマンドの実行結果

以下のように表示される場合、正常にインストールできています。

終わりに

今回はPythonのライブラリでよく使用するものをまとめました。

今後開発を進めるうえで、必要なライブラリが増えた場合は適宜更新していく予定です。

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!

この記事を書いた人

大阪でITエンジニアしています。(8年目に突入)
趣味でウェブサイトに関することをいろいろと勉強しています。

勉強した内容やプログラミングに関する情報を中心に役立つ情報を発信するべく日々ブログを更新しています。

3度の飯よりも「柿の種」をこよなく愛する関西人。

コメント

コメントする

目次
閉じる