4 種類のランダムサンプリング手法の説明

「なぜランダムサンプリングを気にする必要があるのでしょうか?」

その理由は次のとおりです。あなたがデータサイエンティストでモデルを開発したい場合は、データが必要です。データが必要な場合は、誰かがそのデータを収集する必要があります。また、誰かがデータを収集している場合は、データに偏りがないかを確認する必要があり、そうしないと非常にコストがかかることになります。長い目で見れば。

したがって、公平に収集したい場合は、データを理解するには、ランダムサンプリングについて知る必要があります。

Terence Shin の詳細データサイエンスの面接で知っておくべき 10 の高度な SQL 概念

ランダムサンプリングは、母集団内のすべての要素がサンプルとして選択される確率が等しい状態を単に表します。簡単そうに聞こえますよね？バイアスを最小限に抑えるためには、多くのロジスティクスを考慮する必要があるため、言うは易く行うは難しです。これら 4 種類のランダムサンプリング手法を使用すると、まさにそれが可能になります。

単純なランダムサンプリングでは、サンプルを選択するためにランダムに生成された数値を使用する必要があります。より具体的には、まず、母集団のすべてのメンバーのリストまたはデータベースであるサンプリングフレームが必要です。次に、Excel などを使用して各要素の数値をランダムに生成し、必要な最初の n 個のサンプルを取得します。

例として、右側のテーブルがサンプリングフレームであると想像してください。 Excel などのソフトウェアを使用して、サンプリングフレーム内の各要素に対して乱数を生成できます。サンプルサイズ 3 が必要な場合は、1 から 3 までの乱数を使用してサンプルを取得します。

層化ランダムサンプリングでは、母集団を同様の属性を持つグループに分割し、各グループをランダムにサンプリングします。

この方法により、母集団内のさまざまなセグメントが均等に表現されることが保証されます。例として、全体的な満足度を判断するために学校でアンケートが実施されると想像してください。ここで、層化ランダムサンプリングは、各学部の学生の意見を同等に代表することができます。

クラスターサンプリングは、母集団をグループまたはクラスターに分割することから始まります。これが層化サンプリングと異なる点は、各クラスターがより大きな母集団を代表する必要があることです。次に、サンプルするクラスター全体をランダムに選択します。

たとえば、学校に 8 年生の 5 つの異なるクラスがある場合、クラスターランダムサンプリングは、いずれか 1 つのクラスがサンプルとして機能することを意味します。

系統的なランダムサンプリングこれは、k 番目の要素ごとにサンプリングする一般的な手法です。たとえば、ショッピングモールでアンケートを実施している場合は、来店する 100 人ごとにアンケートを行うとします。

サンプリングフレームがある場合は、フレームのサイズ N を必要なサンプルサイズ n で割って、インデックス番号 k を取得します。次に、フレーム内の k 番目ごとの要素を選択してサンプルを作成します。

最初の例と同じチャートを使用して、今回のサンプルサイズを 2 にしたい場合は、サンプリングフレーム内の 3 行おきに取得します。

データサイエンスの詳細Python と Laravel で検索エンジンを作成する方法

これで、ランダムサンプリングとは何か、およびランダムサンプリングを実行するためのいくつかの一般的な手法を理解できたはずです。この概念をマスターすることは、バイアスを最小限に抑え、より良いモデルを作成するために非常に重要です。

4 種類のランダム サンプリング手法の説明

4 種類のランダムサンプリング手法の説明