超入門! Rでできるビジュアル統計学 学会・論文発表に役立つデータ可視化マニュアル
RとR Studioの基本から、質的・量的な変数、地理空間データ、カラーグラフの可視化まで。記述統計学とそれに基づいたチャートの意味、使い方、作り方をまとめた超実践的可視化マニュアル
内容紹介
これまでに、出版されてきた医療者向けの統計学の書籍では、確率から回帰分析まで幅広いテーマを一冊で網羅することに注力され、記述統計に関する説明は限られていました。そのため、収集されたデータを用いた可視化の効果的な方法やその解釈を勉強する機会は十分にありませんでした。その結果として、可視化のためのツールは数多く開発されているものの、適切なグラフを選択して、目的とするメッセージを正しく伝えられない人が多くいるのではないかと思います。
本書では各章で扱うデータタイプをはじめに提示し、それに適したグラフの紹介、そのグラフの解釈、注意するポイント、Rで描画するスクリプトの例という順番に解説しています。このような構成をとることで、みなさんの手元にあるデータをどのように図示するか「自分ごと」として考えられるように工夫し、より実践的な場面でも活用できる内容になっていると思います。
また、可視化の分野でも話題となっているカラーユニバーサルデザインに対応したグラフ、練習データ、特設サイトもご用意しました。ぜひ、そちらも合わせてご覧ください。
序文
本書の目的は、学会発表や論文執筆を控えた医療従事者向けに「どんなデータから、どんなグラフで、どんなメッセージを届けるのか」を改めて提示することです。
これまでに、出版されてきた医療者向けの統計学の書籍では、確率から回帰分析まで幅広いテーマを一冊で網羅することに注力され、記述統計に関する説明は限られていました。そのため、収集されたデータを用いた可視化の効果的な方法やその解釈を勉強する機会は十分にありませんでした。その結果として、可視化のためのツールは数多く開発されているものの、適切なグラフを選択して、目的とするメッセージを正しく伝えられない人が多くいるのではないかと思います。
このところ、研究だけでなくビジネス業界でもデータの可視化・ビジュアライゼーションが注目され、その類の書籍も多く出版されています。しかし、これらの書籍では、文字の大きさや配置、配色については熱心な説明がなされている一方で、データに対する適切なグラフの選択、グラフの解釈や注意点といった具体的な問題に踏み込んでいません。
こうした背景をもとに、臨床もしくはフィールドワークで収集した医学・医療データをどのようなグラフで記述するとよりメッセージが伝わるか、どんなポイントに気をつけると良いか、など具体的かつ明瞭に提示したいと考え、本書を執筆しました。ビッグデータ解析や人工知能が注目を集める昨今、難しい数理モデルを学習することに目移りしがちですが、基本的なデータを図示することが研究の第一歩となることを再認識してもらえると嬉しく思います。
このような目的を達成するために、本書では大きく4つのPartに分けて構成しています。
Part1では、本書を通じて可視化のために使用する統計ソフトRの基本的な紹介をしていきます。「Rは難しい」というイメージがあるかもしれませんが、綺麗なグラフを描くために。なんとか乗り切ってください!Part2では疾病の種類やアンケートデータなどに代表される質的な変数の可視化について学習していきます。さらに、Part3では血糖値や血圧、BMIに代表される量的な変数の可視化について学習していきます。最後に、Part4では地理情報を活用したデータの可視化についても解説していきます。
本書では各章で扱うデータタイプをはじめに提示し、それに適したグラフの紹介、そのグラフの解釈、注意するポイント、Rで描画するスクリプトの例という順番に解説しています。このような構成をとることで、みなさんの手元にあるデータをどのように図示するか「自分ごと」として考えられるように工夫し、より実践的な場面でも活用できる内容になっていると思います。本書が学会発表や論文執筆のお供として役に立てばそれほど嬉しいことはありません。
なお、本書は基本的に2色刷りとさせていただきました。そのため、第9章および本書ウェブサイトには、可視化の分野でも話題になっているカラーユニバーサルデザインに対応したグラフを用意しました。ぜひ、そちらも合わせてご覧下さい。
2021年8月
藤井亮輔
鈴木康司
目次
はじめに
Part1 Rの紹介と前準備
1.RとRStudioの基本
2.データの前処理
3.ggplot2の基本
4.データの種類について
本書で使用するsample.csvについて
本書で使用するパッケージのインストールについて
Part2 質的な変数のグラフ
第1章 データタイプ1(質的な変数・一変量)
1.棒グラフ(Bar chart)
2.円グラフ(Pie chart)
第2章 データタイプ2〔質的な変数・二変量以上(サブグループ)〕
1.横並び棒グラフ(Grouped bar chart)
2.積み上げ棒グラフ(Stacked bar chart)
第3章 データタイプ3〔質的な変数・二変量以上(独立したリスト)〕
1.ベン図(Venn diagram)
2.サンキー図(Sankey diagram)
第4章 データタイプ4〔質的な変数・二変量以上(入れ子)〕
1.ツリーマップ(Treemap)
Part3 量的な変数のグラフ
第5章 データタイプ5(量的な変数・一変量)
1.箱ひげ図(Box-whisker plot)
2.ヒストグラム(Histogram)
3.密度プロット(Density plot)
第6章 データタイプ6(量的な変数・二変量)
1.散布図(Scatter plot)
2.折れ線グラフ(Line graph/Line chart)
3.面グラフ(Area chart)
第7章 データタイプ7(量的な変数・多変量)
1.バブルプロット(Bubble plot)
2.ヒートマップ(Heatmap)
3.レーダーチャート(Radar chart/Spider web)
Part4 地理空間データ・カラーグラフの可視化
第8章 データタイプ8(地理空間データ)
1.基本マップ(Background map)
2.コロプレスマップ(Choropleth map)
3.カルトグラム(Cartogram/Value-area map/Anamorphic map)
4.バブルマップ(Bubble map)
第9章 カラーグラフの可視化
1.色のもつ意味とその役割
2.Rで使用できるカラーパレット
Column
グラフ描画の基本
Rでインタラクティブ・グラフを描く
日本語を使用したグラフを描く
Rでデータの不確実性を描く
地理空間データについて気をつけること
初めてRで地理データを活用したグラフを書きました
Training
1 練習データでグラフを描いてみよう!
2 練習データでグラフを描いてみよう!
3 練習データでグラフを描いてみよう!
4 練習データでカラーグラフを描いてみよう!
参考文献
本書を進める上で参考になる図書
Appendix:Trainingの解答
索引
あとがき
著者紹介
トピックス
■2021-09-27
noteでの連載「編集後記」にて、本書に関する記事を公開いたしました。
「編集後記」とは、新刊・好評書を中心に、金芳堂 編集部が本の概要と見どころ、特長、裏話、制作秘話をご紹介する連載企画です。また、本書の一部をサンプルとして立ち読みいただけるようにアップしております。
著者と編集担当がタッグを組んで作り上げた、渾身の一冊です。この「編集後記」を読んで、少しでも身近に感じていただき、末永くご愛用いただければ嬉しいです。
編集後記『超入門! Rでできるビジュアル統計学 学会・論文発表に役立つデータ可視化マニュアル』|株式会社 金芳堂|note
https://note.com/kinpodo/n/nb07df520fbac