【Python】SeleniumでYouTubeをスクレイピングした(サンプルコード付き)

2021/4/32021/12/7

どうも、カメ助(@kamesuke_blog)です。

そこで今回はSeleniumを使用してYouTubeを「スクレイピング」するプログラムを紹介します。(windows環境)

前半でサンプルコードを紹介、後半でサンプルコードを解説の順で説明していきます。

カメ助

この記事はこんな人にオススメ
・YouTubeの「スクレイピング」の仕方が知りたい
・「スクレイピング」のサンプルコードがほしい

皆さんがスクレイピングする際の参考になれば嬉しいです。

スクレイピングのサンプルコード

YouTubeのデータの内、スクレイピングで取得するものとしては「タイトル」、「動画のURL」が挙げられます。

そこで今回は、YouTubeの急上昇(音楽)の動画タイトル・動画のURLをCSVファイルに書き出すコードを紹介します。(画面の操作はSeleniumを使用しています。)

処理の流れ

サンプルコードの処理は以下の流れで行います。

YouTubeの急上昇のサイトにアクセスする
YouTubeの急上昇のサイト内の「音楽」タブをクリックする
ページの情報を取得する
取得結果をCSVファイルに出力する

サンプルコードの動作確認環境

本サンプルでは、PythonとSeleniumを使用しています。(Windows環境)

OS 　　: Windows10
言語　　：Python
ツール　：Selenium (chromedriverを使用)
エディタ：VSCode
ブラウザ：GoogleChrome

サンプルコード

コメントで簡単な説明を記載していますので参考にしてください。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import pandas as pd
from time import sleep

#windows(chromedriver.exeのパスを設定)
chrome_path = r'C:\Users\デスクトップ\python\selenium_test\chromedriver'

#mac
#chrome_path = 'C:/Users/デスクトップ/python/selenium_test/chromedriver'

#YouTubeの急上昇(音楽)ぺージのデータを10件取得しCSV出力
def get_youtube_trending_music_info(url,outputFileName):
    options = Options()                     #　オプションを用意
    options.add_argument('--incognito')     #　シークレットモードの設定を付与
    
    #　chromedriverのパスとパラメータを設定
    driver = webdriver.Chrome(executable_path=chrome_path,options=options)
    driver.get(url)                         #　chromeブラウザでurlを開く
    driver.implicitly_wait(10)              #　指定したドライバの要素が見つかるまでの待ち時間を設定
    
    xpath = '//*[@id="tabsContent"]/tp-yt-paper-tab[2]' #急上昇の音楽タブのxpathを設定
    driver.find_element_by_xpath(xpath).click()         #音楽のタブをクリック
    
    sleep(2)        # 再読み込みのために2秒待つ

    #ランキング情報を取得
    music_ranking_videos = driver.find_elements_by_id('video-title')
    
    #トップ10の情報(動画タイトルとURL)を格納する変数を用意
    titles = []
    urls = []

    #トップ10の情報を抽出する
    for music_ranking_video in music_ranking_videos:
        
        #titlesに動画タイトルを格納
        titles.append(music_ranking_video.text)               
        
        #urlsに動画URLを格納
        urls.append(music_ranking_video.get_attribute('href'))
        
        #10件処理したら終了
        if len(titles) == 10:
            break
    
    #取得したデータの整形を行う
    #DataFrameの準備
    df = pd.DataFrame()
    
    #データを設定する
    df['trending_rank'] = range(1,11) #急上昇ランキング1位から10位
    df['title'] = titles
    df['URL'] = urls
    
    #データをCSVで出力する
    df.to_csv(outputFileName)
    
    #chromeブラウザを閉じる
    driver.quit()                           


#インポート時は実行されないように記載
if __name__ == '__main__':
     
    #Youtubeの急上昇ページ
    url = 'https://www.youtube.com/feed/trending'
    
    #データを書きだすファイル名
    outputFileName = 'youtube_trending_music_rank.csv'

    #YouTubeの急上昇(音楽)ぺージのデータを10件取得しCSV出力
    get_youtube_trending_music_info(url,outputFileName)

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

import pandas as pd

from time import sleep

#windows(chromedriver.exeのパスを設定)

chrome_path = r'C:\Users\デスクトップ\python\selenium_test\chromedriver'

#mac

#chrome_path = 'C:/Users/デスクトップ/python/selenium_test/chromedriver'

#YouTubeの急上昇(音楽)ぺージのデータを10件取得しCSV出力

def get_youtube_trending_music_info(url,outputFileName):

options = Options() #　オプションを用意

options.add_argument('--incognito') #　シークレットモードの設定を付与

#　chromedriverのパスとパラメータを設定

driver = webdriver.Chrome(executable_path=chrome_path,options=options)

driver.get(url) #　chromeブラウザでurlを開く

driver.implicitly_wait(10) #　指定したドライバの要素が見つかるまでの待ち時間を設定

xpath = '//*[@id="tabsContent"]/tp-yt-paper-tab[2]' #急上昇の音楽タブのxpathを設定

driver.find_element_by_xpath(xpath).click() #音楽のタブをクリック

sleep(2) # 再読み込みのために2秒待つ

#ランキング情報を取得

music_ranking_videos = driver.find_elements_by_id('video-title')

#トップ10の情報(動画タイトルとURL)を格納する変数を用意

titles = []

urls = []

#トップ10の情報を抽出する

for music_ranking_video in music_ranking_videos:

#titlesに動画タイトルを格納

titles.append(music_ranking_video.text)

#urlsに動画URLを格納

urls.append(music_ranking_video.get_attribute('href'))

#10件処理したら終了

if len(titles) == 10:

break

#取得したデータの整形を行う

#DataFrameの準備

df = pd.DataFrame()

#データを設定する

df['trending_rank'] = range(1,11) #急上昇ランキング1位から10位

df['title'] = titles

df['URL'] = urls

#データをCSVで出力する

df.to_csv(outputFileName)

#chromeブラウザを閉じる

driver.quit()

#インポート時は実行されないように記載

if __name__ == '__main__':

#Youtubeの急上昇ページ

url = 'https://www.youtube.com/feed/trending'

#データを書きだすファイル名

outputFileName = 'youtube_trending_music_rank.csv'

#YouTubeの急上昇(音楽)ぺージのデータを10件取得しCSV出力

get_youtube_trending_music_info(url,outputFileName)

出力ファイル(一部抜粋)

サンプルコードを実行すると以下のようなCSVファイル(youtube_trending_music_rank.csv)が出力されます。

実際の業務では、出力したCSVファイルの内容を分析していきます。

,trending_rank,title,URL
0,1,NiziU(니쥬) 2nd Single 『Take a picture』 MV,https://www.youtube.com/watch?v=OlHb1qH-zS4
1,2,Snow Man「Black Gold」（from「滝沢歌舞伎 ZERO 2020 The Movie」）,https://www.youtube.com/watch?v=HCLy5Ir48lU
2,3,YOASOBI「優しい彗星」Official Music Video　(YOASOBI - Comet),https://www.youtube.com/watch?v=VyvhvlYvRnc
3,4,宇多田ヒカル『One Last Kiss』,https://www.youtube.com/watch?v=0Uhh62MUEic
4,5,廻廻奇譚 - Eve MV(Live Film ver),https://www.youtube.com/watch?v=ijXeGqSRNJc
5,6,JO1｜'Born To Be Wild' Official MV,https://www.youtube.com/watch?v=-_P_cD0yimw
6,7,スピッツ / 紫の夜を越えて,https://www.youtube.com/watch?v=nqjkgsRD7Sw
7,8,関西ジャニーズJr.「BIG GAME」（あけおめコンサート2021〜関ジュがギューっと大集合〜）,https://www.youtube.com/watch?v=DIprjjAYZeU
8,9,誇り高きアイドル／HoneyWorks feat.Kotoha,https://www.youtube.com/watch?v=Qou76O_Rys0
9,10,優里 『ドライフラワー』 Official Music Video -ディレクターズカットver.-,https://www.youtube.com/watch?v=kzZ6KXDM1RI

,trending_rank,title,URL

0,1,NiziU(니쥬) 2nd Single 『Take a picture』 MV,https://www.youtube.com/watch?v=OlHb1qH-zS4

1,2,Snow Man「Black Gold」（from「滝沢歌舞伎 ZERO 2020 The Movie」）,https://www.youtube.com/watch?v=HCLy5Ir48lU

2,3,YOASOBI「優しい彗星」Official Music Video　(YOASOBI - Comet),https://www.youtube.com/watch?v=VyvhvlYvRnc

3,4,宇多田ヒカル『One Last Kiss』,https://www.youtube.com/watch?v=0Uhh62MUEic

4,5,廻廻奇譚 - Eve MV(Live Film ver),https://www.youtube.com/watch?v=ijXeGqSRNJc

5,6,JO1｜'Born To Be Wild' Official MV,https://www.youtube.com/watch?v=-_P_cD0yimw

6,7,スピッツ / 紫の夜を越えて,https://www.youtube.com/watch?v=nqjkgsRD7Sw

7,8,関西ジャニーズJr.「BIG GAME」（あけおめコンサート2021〜関ジュがギューっと大集合〜）,https://www.youtube.com/watch?v=DIprjjAYZeU

8,9,誇り高きアイドル／HoneyWorks feat.Kotoha,https://www.youtube.com/watch?v=Qou76O_Rys0

9,10,優里『ドライフラワー』 Official Music Video -ディレクターズカットver.-,https://www.youtube.com/watch?v=kzZ6KXDM1RI

続いてサンプルコードの内容について説明していきます。ソースコード見れば内容がわかる方は、読み飛ばしても問題ないです。

サンプルコードの解説

ここからはサンプルコードの内、YouTubeにアクセスする部分について解説します。

まず、メソッド「get_youtube_trending_music_info」に引数として以下のパラメータを渡します。

メソッド「get_youtube_trending_music_info」の引数

url　:　YouTubeのURL
outputFileName　：　CSVファイル名

Seleniumのパラメータを設定し、urlにアクセスしています。

    options = Options()                     #　オプションを用意
    options.add_argument('--incognito')     #　シークレットモードの設定を付与
    
    #　chromedriverのパスとパラメータを設定
    driver = webdriver.Chrome(executable_path=chrome_path,options=options)
    driver.get(url)                         #　chromeブラウザでurlを開く
    driver.implicitly_wait(10)              #　指定したドライバの要素が見つかるまでの待ち時間を設定