高校情報Ⅰ データの収集・整理・可視化の基本(3か月目第3週)

高校情報Ⅰと実践活用
★本サイトの取り組み方★
まなびの目標を理解し、使われる場面をイメージしましょう。
②最後の確認クイズで、学んだことをしっかりチェックしましょう。

まなびの目標🎯
・身の回りからデータを収集する方法を理解する。
表計算ソフトを使ってデータを整理する基本的な方法を習得する。
・データの特徴傾向を分かりやすく伝えるグラフの作成方法を学ぶ。
・正確な分析のためのデータクレンジングを理解する。




1. データ活用の第一歩:収集・整理・可視化

わたしたちは、天気予報やニュース、SNSなど、毎日様々な情報(データ)に触れています。これらのデータの中に、隠された意味や価値があります。
データを有効に活用するためには、まず集めて整理し、そして見やすくする(可視化)というステップが不可欠です。

2. データを集める方法

どのようなデータを集めれば、知りたいことや解決したい課題の手がかりになるかを考えることが大切です。

📢 データ収集方法 例
・アンケート: 質問紙やWebフォームを使って、多くの人から意見や情報を集めます。Webフォームは、Google フォームなどが有名です。
観察・計測: ある対象を注意深く見たり、機器を使って数値を測ったりしてデータを記録します。例えば、校庭の気温の変化、体育の授業での50m走のタイムを計る、などです。
既存データの利用: 国や地方公共団体、事業者が公開しているデータ(オープンデータ)や、インターネット上の情報などを利用します。

オープンデータとは?

国や地方公共団体、事業者が保有する広く公開されているデータ(例:人口統計、気象情報など)です。機械判読に適した形式で、原則無償で、自由に次利用が可能なデータのことです。

誰でもインターネットなどを通じて自由に、営利・非営利を問わず複製、加工、再配布などができるのが特徴です。これにより、行政の透明化、住民サービスの向上、新たなビジネスやイノベーションの創出が期待されています。

集める際には、信頼できる情報源から、偏りのないように集めることが重要です。

3. 表計算ソフトでデータを整理する

集めたデータは、まず整理します。

例えば、ExcelやGoogleスプレッドシートなどの表計算ソフトで、データを表形式で入力し、計算したり、並べ替えたりして、効率的に整理することができます。

3.1 基本のキ:セル・行・列

セル: データを入力する一つ一つのマス目です。
: 横方向の並びです。通常、1, 2, 3… と番号が振られています。
: 縦方向の並びです。通常、A, B, C… とアルファベットが振られています。
一つの行には、一件分のデータを、一つの列には、データの項目を入力するのが基本です。

3.2 便利な機能:並べ替えとフィルタ

表計算ソフトには、データを整理するための便利な機能があります。

並べ替え(ソート): データを特定の基準(例:名前のあいうえお順、単価順、など)に従って並べ替える機能です。データの大小関係や順序を見つけやすくなります。
フィルタ: 特定の条件に合うデータだけを表示する機能です。(例:特定のカテゴリだけ表示、など)

これらの機能を使うことで、大量のデータの中から必要な情報だけを素早く見つけ出すことができます。

3.3 尺度水準(質的データ、量的データ)

データを整理・分析する際には、そのデータがどのような「性質」を持っているかを理解することが大切です。データは大きく質的データ量的データの2つに分けられます。

質的データ
分類や種類を区別するためのデータで、数値で表されても、その数値自体に量的な意味はありません。足し算や引き算などの計算には向きません。
📢 例:
血液型(A型, B型, O型, AB型)
アンケートの満足度(満足, 普通, 不満)
部活動名(サッカー部, 吹奏楽部)
質的データはさらに、単なる分類である名義尺度(例:血液型)と、順序に意味がある順序尺度(例:満足度、成績の5段階評価)に分けられます。

・量的データ 
数値で表され、その数値の大きさ、差、比率などに意味があるデータです。計算が可能です。
📢 例:
身長 (cm)、体重 (kg)
気温 (°C)
テストの点数
価格 (円)
量的データはさらに、0が相対的な意味しか持たない間隔尺度(例:西暦、気温)と、0が「全くない」ことを意味し、比率にも意味がある比例尺度(例:身長、重さ、価格)に分けられます。

💡なぜこれが重要か?
データの種類(尺度水準)によって、使える整理方法や分析手法、そして選ぶべきグラフの種類が変わります。例えば、血液型(質的データ)の平均値を計算しても意味がありませんし、気温の変化(量的データ)を円グラフで表すのは不適切です。

データを扱うときは、まずそのデータが質的なのか量的なのか、そしてどの尺度に当たるのかを意識することが、正しいデータ活用の第一歩となります。

4. データをきれいにする:データクレンジング

集めたデータには、入力にミスがある、値が欠けている(欠損値)、他の値から大きく異なる値(外れ値)がある、単位の不統一である、など、そのまま分析を行うには不向きなものもあります。

このようなデータをそのまま使って分析やグラフ作成を行うと、間違った結論を導き出してしまう可能性があります。そこで重要になるのが、データクレンジング(またはデータクリーニング)です。

データクレンジングは、データの誤りや矛盾を見つけ出し、修正・削除して、データの質を高める作業のことで、信頼性の高い分析を行うために、とても重要です!

📢 データクレンジングの例
・入力ミス: 「東京都」が「東亰都」になっている → 修正する。
・欠損値: 一部身長のデータが入力されていない → 平均値で補うか、そのデータを除外するか検討する。
・表記の揺れ: 「サッカー部」「サッカー部」「Soccer部」が混在している → 表記を統一する。
・単位の不統一: 身長が「cm」と「m」で混在している → 単位を統一する。

💡分析の背景や目的に応じて、欠損値の補完方法、外れ値の取り扱いなどは、慎重に判断することが重要です

5. データを見える化(可視化)

整理されたデータは、グラフにすることで、その特徴や傾向を一目で理解しやすくなります。伝えたい内容やデータの種類に応じて、最適なグラフを選ぶことが大切です。

◆棒グラフ(量を比べる)

目的: 複数の項目間の量の大小を比較する。
例: クラスの好きな教科アンケートの結果、各部活動の部員数。
ポイント: 棒の長さで量を表す。縦棒グラフと横棒グラフがある。

◆折れ線グラフ(変化を見る)
目的: 時間の経過に伴う量の変化を見る。
例: 一週間の気温の変化、自分のテストの点数の推移。
ポイント: 点を結ぶ線の傾きで変化の度合いを表す。

◆円グラフ(割合を見る)

目的: 全体に対する各項目の割合(構成比)を見る。
例: 一日の時間の使い方、アンケートの回答の内訳。
ポイント: 円グラフは全体を100%として扇形の面積で割合を表す。

散布図(関係を見る)

目的:2つの項目間の関係性や相関を見る。
例: 勉強時間とテストの点数の関係。
ポイント: 2つの量を縦軸と横軸に取り、データを点でプロットする。点の分布パターンから関係性を読み取る。

💡グラフ作成の注意点
グラフを作るときは、タイトルや軸ラベル、凡例(はんれい)、単位などを明確にし、誰が見ても誤解なく内容を理解できるように心がけましょう。また、伝えたいメッセージを強調するために、色やデザインを工夫することも大切ですが、過度な装飾はかえって見にくくなることもあるので注意が必要です。

6. まとめ

今回は、データ活用の基本である収集・整理・可視化について学びました。

・データは、アンケートや観察、既存データなど、目的に合わせて収集します。
・表計算ソフトを使えば、データを効率的に整理できます。
・正確な分析のためには、データクレンジングでデータの質を高めることが重要です。
・データはグラフにすることで可視化され、特徴や傾向が理解しやすくなります。
・棒グラフ、折れ線グラフ、円グラフ、散布図など、目的に合ったグラフを選びましょう。

7. 確認クイズ

Q1. 国や地方公共団体などが、誰でも自由に利用・加工・再配布できるように、機械判読に適した形式で公開しているデータを何と呼びますか?

  • プライベートデータ
  • クローズドデータ
  • オープンデータ

正解!正解!

不正解!不正解!

オープンデータ

ヒント:二次利用が可能なルールで公開される公共性の高いデータです。「公開された」という意味合いで呼ばれます。

Q2. 表計算ソフトにおいて、データを入力する一つ一つのマス目のことを何と呼びますか?

  • 行 (レコード)
  • セル
  • 列 (フィールド)

正解!正解!

不正解!不正解!

セル

ヒント:表計算ソフトで、文字や数値を入力するマス目の最小単位です。

Q3. アンケートの満足度(例:満足、普通、不満)や血液型のように、順序や分類を表すデータを一般的に何と呼びますか?

  • 機密データ
  • 質的データ
  • 統計データ

正解!正解!

不正解!不正解!

質的データ

ヒント:数値で表現されても、計算ではなく分類や種類を示すために用いられるデータです。

Q4. 集めたデータに含まれる入力ミス、欠損値、表記の揺れなどを修正し、分析に適した形に整える作業を何と呼びますか?

  • データソーシング
  • データクレンジング
  • データビジュアライゼーション

正解!正解!

不正解!不正解!

データクレンジング

ヒント:データ分析の前に、誤りや欠損などを修正し、データの品質を向上させる作業のことです。

Q5. 1年間の月ごとの平均気温の変化を示すのに、最も適しているグラフの種類は何ですか?

  • 円グラフ
  • 折れ線グラフ
  • 散布図

正解!正解!

不正解!不正解!

折れ線グラフ

ヒント:時間の経過に伴うデータの変動や推移を示すのに適したグラフです。

確認クイズは、いかがでしたでしょうか?今回の学習が、皆さんのデータ活用能力を高める一助となれば幸いです。閲覧いただき、ありがとうございました!

※本記事 教科書該当範囲

教科書名 該当章
新編情報Ⅰ(東京書籍) 4章 36. データの形式, 39. データ分析の流れ, 40. 目的に合わせたデータの利用
最新情報I(実教出版) 第5章 2節 データの活用1~4
高校情報ⅠJavaScript(東京書籍) 第5章 25. データの収集と整理, 26. ソフトウェアを利用したデータの処理, 27. 統計量とデータの尺度
高校情報ⅠPython(東京書籍) 第5章 25. データの収集と整理, 26. ソフトウェアを利用したデータの処理, 27. 統計量とデータの尺度

本サイトは、教科書をベースに構成しています。使える「情報Ⅰ」を目指し、毎週月曜日に新しい記事を発信予定です。

情報Ⅰ

高校情報Ⅰ データベースの基礎と活用(リレーショナルデータベース・SQL入門)(3か月目第2週)
★本サイトの取り組み方★ ①まなびの目標🎯を理解し、使われる場面をイメージしましょう。②最後の確認クイズ💡で、学んだことをしっかりチェックしましょう。まなびの目標🎯・データベースがなぜ大切で、どのような場面で役立つのかを理解する。・たくさん...
高校情報Ⅰ 情報セキュリティ(3か月目第1週)
★本サイトの取り組み方★ ①まなびの目標🎯を理解し、使用するケースを学ぶ。②最後の確認クイズ💡でインプットを確認する。まなびの目標🎯・情報を守る3つの基本(機密性・完全性・可用性)を理解しよう・情報を安全にやり取りする仕組みを知ろう・危険か...

情報Ⅰ × Python

Pythonでデータを扱う!リスト, 辞書, グラフ描画matplotlib(情報Ⅰプログラミング④)
Pythonでは、データを扱うためのリストや辞書などの仕組みが用意されています。また、分析したデータをグラフにすることで、見た目にもわかりやすく伝えることができます。今回の記事では、Pythonの基本的なデータ構造と可視化を紹介します!■目...

本記事に対し、お気づきの点ございましたらお問い合わせよりご連絡頂けますと幸いです。




コメント

タイトルとURLをコピーしました