4月21日、首相官邸の公式アカウント(首相官邸(新型コロナワクチン情報)、https://twitter.com/kantei_vaccine)がとんでもない情報を発信してしまった。
4月20日の厚生労働省 専門家会合において、#新型コロナワクチン 接種状況別(#3回目接種 含む)の新規陽性者数等が報告されました。
— 首相官邸(新型コロナワクチン情報) (@kantei_vaccine) April 21, 2022
▼詳細はこちらの資料P3をご覧ください。https://t.co/Uc9uJOioKV pic.twitter.com/MmFmMHQMK2
このツイートにある図は、ワクチン接種歴別(「未接種」「2回接種済み」「3回接種済み」に分類)に、それぞれの人口10万人当たり1週間の新規陽性者数(以下では便宜上「発生率」(incidence rate)と呼ぶことにする)を示したものである。ワクチン接種者が陽性者になりにくいことが示されていて、河野太郎元ワクチン担当相が、これを引用して、ワクチン接種を推奨するなど、反響が大きい。
10万人あたりの新規 陽性者数です。反ワクチンデマに惑わされず、三回目まではしっかり接種しましょう。 https://t.co/UdMZNKDZQk
— 河野太郎 (@konotarogomame) April 21, 2022
ツイートに「厚生労働省 専門家会合」とあるのは、「新型コロナウイルス感染症対策アドバイザリーボード」のことで、この会議の趣旨は、「新型コロナウイルス感染症対策を円滑に推進するに当たって必要となる、医療・公衆衛生分野の専門的・技術的な事項について、厚生労働省に対し必要な助言等を行うものとする。」とされている。 ツイートの元データは、厚生労働省が作成し、この会議に継続的に提出していた資料の4月20日版である。この後はいったん途切れて、5月11日に新しく3週分がまとめて発表された。この5月11日版では、集計方法が変更されて、未接種者の発生率が大きく減少した。2回接種と3回接種が区分された後の4月13日版・4月20日版(3月28日~4月10日分)と5月11日版の3週分(4月11日~5月1日分)の「ワクチン効果」(vaccine effectiveness)を「未接種」と「2回接種済み」で対比させたのが、下の図である。「ワクチン効果」は、「1−(2回接種済みの発生率/未接種者の発生率)」で計算している。これは、ワクチン未接種の新規陽性者がかりにワクチンを接種していれば陽性者にならなかった割合である。100%であれば誰も陽性にならなくなり、0%であれば発生率は変わらない。やや粗い計算であるが、発生率は発表されている1週間の計数の平均をとっている。
90歳以上を除く年齢層では、集計方法変更後でワクチン効果が大きく下がっている。効果がマイナスになる(つまり、ワクチンを接種すると陽性になりやすい)年齢層も数多くある(なお、65~69歳は大きく負になるので、グラフからはみ出すように縦軸が設定されている)。つまり、ワクチンの効果が誇張されたデータが、厚生労働省から首相官邸経由で拡散されていたことになる。
ここで何が起こったのかを知ることは、データ分析の良い教材になる。
新規陽性者のワクチン接種歴の元データは、HER-SYSに登録される発生届である。ワクチン接種歴の記入欄は、「有・無・不明」の3種類となっている。そして、この欄に「未記入」の発生届もある。したがって、HER-SYS上のデータは、「有・無・不明・未記入」の4つのどれかになる。
アドバイザリーボードには、鈴木基・国立感染症研究所感染症疫学センター長が、HER-SYSによるワクチン接種歴のデータを継続的に提出している。その2021年12月16日版で集計方法が変更され、2020年第47週までは「未記入」を「無」(未接種)に含めていたが、第48週から「未記入」を「不明」に含めるようになった。下の図はこの資料での47~49週の新規陽性者の「未接種」と「不明」の数であるが、集計方法の変更は未接種者数に無視できない影響があることがわかる。
|
65歳未満 |
65歳以上 |
||
|
接種なし |
接種歴不明 |
接種なし |
接種歴不明 |
47 |
332 |
38 |
16 |
9 |
48 |
327 |
147 |
8 |
16 |
49 |
289 |
161 |
8 |
36 |
一方、厚生労働省資料は鈴木先生資料のような変更をずっとおこなわず「未記入」を「無」に含めていたが、やっと5月11日からは「不明」に含めるように変更した。発生率の分母となる人口は、別データから推計されている(じつはここにも大きな問題があって、この記事の末尾と関係する)。したがって、集計方法の変更によって、未接種者の発生率の分子が大きく減少して、発生率が大きく減少した。逆に言うと、集計方法の変更以前は未接種者の新規陽性者が多かったため、ワクチン効果が大きく出てしまっていた。
本来は、ワクチン接種歴は「有」「無」のどちらかしかない。「不明」「未記入」は、本来の情報が得られていない「欠測値」(missing value)である。欠測値は、統計調査ではよく発生するものである。それが発生したときにどのように扱うか、そして欠測値をできるだけ発生しないようにするにはどのような調査方法をとればいいのか、は統計データの質を高め、分析の質を高めるための重要な作業である。しかし、統計学の学習は必要な情報がそろったデータの扱いから始まるので、欠測値をどう扱うのか、の議論は軽視されやすい。
統計学の学習者も機械学習や因果推論のような「高度な」手法を勉強したくて、データの未記入の取り扱いのような泥臭いことは軽視するかもしれないが、実務的に取り扱いを誤ると、首相官邸が誤情報を拡散するような事態を引き起こす。また、機械学習や因果推論を伝統的な統計的手法と対比するときは、欠測値の補完という概念を使うと見通しが良くなるという効能もある。
さて、厚生労働省資料の取り扱いの問題点を理解するために、以下のような例題を考えよう。
あるアンケートの回答者100名の性別欄が男60人、女20人、未記入20人であった。このデータをどう処理するか。(A)未記入20人を全員、「男」として扱う。(B)未記入20人を「男」10人、「女」10人に按分する。(C)未記入を、「不明」として「男」、「女」と別に扱う。(D)未記入を回答者の比率で、「男」15人、「女」5人に按分する。
常識的に(A)や(B)はおかしい、と思う人がほとんどだろうが、厚生労働省はそうは思わずに(A)を選んだ、と言える。厚生労働省にデータ分析のリテラシー(欠測値の扱い方)が無さすぎることが原因であろう。昨年12月に発覚した、国土交通省の「建設工事受注動態統計」で過大集計がされたのも、欠測値に対してとんでもない処理をしてしまったことが原因であり、厚生労働省だけの問題ではない。役所内の人材を育成することが急務であるが、それができるまでは、たとえば専門家が専門的・技術的な事項について必要な助言等をおこなう会議に資料を提出してチェックを仰ぐような対策が考えられる。...ん?
一瞬、筆が止まってしまったが、気を取り直して、つぎの例題に移ろう。
前立腺がん患者へのアンケートの回答者100名の性別欄が男60人、女20人、未記入20人であった。このデータをどう処理するか。
数値は前の例題と同じなので前の例題と同じように考える、というのは間違いである。まず、前立腺は男性のみがもつ臓器なので、「未記入20人を全員、「男」として扱う」は常識的に「正しい」。問題にしなければならないのは、どうして20人も「女」と回答しているのか、である。かりに1人であれば、間違って記入したか、ふざけて記入したか、の可能性がある。この場合、アンケートの他の項目の回答状況を見て、ふざけて回答しているのか、真面目に回答しているのか、を検討する。前者であればこの観測値は分析には使用しないし、後者であれば、誤記入を訂正して使用する場合と使用しない場合があり得る。しかし、100人中20人も「女」と回答しているとなると、まずはデータに何かとんでもないことが起こっているのではないか、を疑わないといけない。
ワクチン効果の事例に戻ると、①90歳以上で高くて集計の変更の影響を受けていないこと、②64-69歳で著しく低いことは、データで何かとんでもないことが起こっている可能性を検討すべきである。実際、とんでもないことが起こっているのだが、ここで解答をすべて明らかにせず、一部を謎のままにしておく方が関心を持っていただける人が多くなることを期待して、このままにしておく。ヒント:首相官邸サイトの「新型コロナワクチンについて」ページにある資料では、90歳代の1回以上接種率が100%を超えている(当記事執筆時点。この資料は随時、更新されるので、アクセスしたときには違った数値となっている可能性がある)。
それでは、ご検討(ご健闘)を祈る。
[2022年5月25日追記]Twitterで解答と修正案が寄せられたので、ご紹介したい。データに制約がある状況では、どのような修正案にも誤差が含まれるのは避けられないが、この修正案は誤差を小さく抑え込んでいると思われる。
ワクチン接種率が90歳以上で異常に高いのは最新の年齢分布を使用していないためだと考え、なるべく新しいデータを使用して再計算してみました。#ワクチン接種率 #厚生労働省アドバイザリーボード pic.twitter.com/zHbWl6HXoX
— okhotska (@0kh0tska) May 16, 2022