【005 複数条件に合致する行を抽出する①】 Python in Excelで始めるデータサイエンス100本ノック！

📖

1️⃣ はじめに 2️⃣ データサイエンス100本ノックの紹介 3️⃣ Docker上で実行 4️⃣ Python in Excelで実行 5️⃣ おわりに

データサイエンス100本ノック関連記事リスト

【001 全項目を指定行数抽出する】 Python in Excelで始めるデータサイエンス100本ノック！

【002 特定の列を抽出する】 Python in Excelで始めるデータサイエンス100本ノック！

【003 指定列の列名を変更する】 Python in Excelで始めるデータサイエンス100本ノック！

【004 特定条件に合致する行を抽出（=、>、<）】 Python in Excelで始めるデータサイエンス100本ノック！

【005 複数条件に合致する行を抽出する①】 Python in Excelで始めるデータサイエンス100本ノック！

【006 複数条件に合致する行を抽出する②】 Python in Excelで始めるデータサイエンス100本ノック！

【007 複数条件に合致する行を抽出する③】 Python in Excelで始めるデータサイエンス100本ノック！

【008 特定条件に合致しない行を抽出する(!=)】 Python in Excelで始めるデータサイエンス100本ノック！

1️⃣ はじめに

この連載企画では、データサイエンス100本ノックをDockerとPython in Excelで実行する方法を比較しながらご紹介しています。
📖
Python in Excelとは？
Python in Excelは、Excel上で直接Pythonのコードを実行できる話題の新機能です。
2023年8月に、パブリックプレビュー版が発表されました。
現在は、Microsoftの一定のバージョン以降でMicrosoft 365 insidersプログラムに参加し「Beta Channel」を選択することで利用が可能です。
Python in Excelでは、ExcelにPython実行環境である「Anaconda」が組み込まれています。
新しい関数である「PY」関数を使って、セルにPythonプログラムを書き込むと、クラウドでPythonプログラムを実行することができます。
Python向けの各種ライブラリとして、Pandas や Matplotlib、seaborn を使えば、データの整形やグラフ化ができたり、scikit-learn を使用すれば機械学習やデータからの予測などの機能を利用できます。
Python in Excel の概要 - Microsoft サポート
Excel スプレッドシートでの Python 関数の使用について説明します。
https://support.microsoft.com

それでは早速、演習問題005 複数条件に合致する行を抽出する①にチャレンジしてみましょう！

2️⃣ データサイエンス100本ノックの紹介

データサイエンス100本ノックは、実践的でワクワクするような課題に取り組みながら、プログラミング、データ分析のスキルを楽しく習得することを目指した、データサイエンス初学者のための問題集です。
📖
「データサイエンス100本ノック（構造化データ加工編）」とは具体的に？
データサイエンス初学者を対象に、データの加工・集計、統計学や機械学習を駆使したモデリングの前処理等を学べるように、データと実行環境構築スクリプト、演習問題がワンセットになったコンテンツのことです。
「データサイエンス100本ノック（構造化データ加工編）」概要
アクセス：GitHub（無料公開）
実行環境のサポート言語：SQL、Python、R
演習問題：各言語の設問100問
解答例：各設問に対する解答例のファイルを用意
GitHub - The-Japan-DataScientist-Society/100knocks-preprocess: データサイエンス100本ノック（構造化データ加工編）
データサイエンス100本ノック（構造化データ加工編）. Contribute to The-Japan-DataScientist-Society/100knocks-preprocess development by creating an account on GitHub.
https://github.com

3️⃣ Docker上で実行

まず、Dockerコンテナ上で立ち上げたJupyter環境で実行していきます。

演習問題005

レシート明細データ（df_receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
- 顧客ID(customer_id)が"CS018205000001"
- 売上金額（amount）が1,000以上

条件式を考える場合はベン図で考えると分かりやすいです。
今回の場合、「顧客ID(customer_id)がCS018205000001かつ売上金額(amount)が1,000以上」な条件を組み立てます。このような「AかつB」の論理演算を論理積といいます。
なお、売上金額(amount)については1,000「以上」となっており、1,000の場合も含むことを意識して条件式を組み立てる必要があります。
一番初めのセルでレシート明細データのCSVファイルをdf_receiptという変数に読み込む処理をしています。

読み込んだ df_receiptから表示する列をリストで指定します。
df_receiptに続けて角括弧を入力し、複数の列をリストで指定します。
```
df_receipt[['sales_ymd', 'customer_id', 'product_cd', 'amount']]
```

複数の列を指定してデータを出力できました。
続いて、AかつBの論理演算を行います。
Pandasの場合、データフレームの項目に対し、比較演算子による条件指定を行うことで、True/Falseの配列を生成することができます。
```
df = df_receipt[['sales_ymd', 'customer_id', 'product_cd', 'amount']]
(df['customer_id'] == 'CS018205000001') & (df['amount'] >= 1000)
```
customer_idがCS018205000001でかつ、amountが1000以上の行がTrueとなります。
条件と一致した行のみTrueとなります。
論理積を記述する際は＆（アンパサンド）で2つの条件式をつなげます。なお、andとするとエラーとなりますので注意が必要です。
そして、データフレームのdfの中で条件式を書くことで、Trueの項目でデータを絞り込むことができます。
```
df = df_receipt[['sales_ymd', 'customer_id', 'product_cd', 'amount']]
df[(df['customer_id'] == 'CS018205000001') & (df['amount'] >= 1000)]
```
指定した条件でデータを絞り込み表示することができました。
次はPython in Excelで確認します。

4️⃣ Python in Excelで実行

レシート明細のCSVデータをExcelで開いています。
データのダウンロードの方法はこちらの動画をご覧ください。

数式バーからPythonの挿入を選択します。

Python in Excelを使ってDataFrameにデータを格納するにはセル範囲を選択します。
列を指定するか、または表のセル範囲を指定します。

指定した範囲をdf_receiptという変数に格納します。
```
df_receipt = xl("A:I", headers=True)
```

先ほどと同様にdf_receiptに対してリストで表示したい列名を入力します。

df_receipt = xl("A:I", headers=True)
df_receipt[['sales_ymd', 'customer_id', 'product_cd', 'amount']]

Ctrl + Enterで実行。表示がDataFrameに変わりましたら、数式バー隣のプルダウンメニューをクリック、PythonオブジェクトからExcelの値に変更します。

値が出力されました。
続いてはPandasのqueryメソッドを使用してデータを絞り込みます。
queryメソッドを使用すると、データフレーム内のデータに対して、文字列ベースのクエリ式を使って条件を指定し、その条件に一致するデータのみを抽出することができます。
顧客ID（customer_id）と売上金額（amount）の値を文字列で指定します。条件式全体をシングルクォーテーションで囲み、検索する文字列をダブルクォーテーションで囲みます。
```
df_receipt[['sales_ymd', 'customer_id', 'product_cd', 'amount']].　\
	query('customer_id == "CS018205000001"　& amount >= 1000')
```
Ctrl + Enterで実行します。
条件で絞り込みしたデータが出力されました
なお、逆に条件式全体をダブルクォーテーションで囲み、検索文字列をシングルクォーテーションで囲むこともできます。
また、queryメソッドの場合は&（アンパサンド）の他andと記述することも可能です。
```
df_receipt[['sales_ymd', 'customer_id', 'product_cd', 'amount']].　\
	query("customer_id == 'CS018205000001' and amount >= 1000")
```
Ctrl + Enterで実行します。

条件で絞り込みしたデータが出力されました。

以上で、データサイエンス100本ノック演習問題005 複数条件に合致する行を抽出する①をクリアしました。

5️⃣ おわりに

最後までお読みいただきありがとうございます！
この記事へのご質問やアドバイスがありましたら、ぜひコメントもお待ちしております。
またXでもVBA、Pythonに関するアウトプットをしていますので、🔽フォローいただけますと幸いです😆