V důsledku toho, že v průzkumu veřejného mínění nedotazujeme celou populaci, ale jen její reprezentativní výběrový soubor, dochází nevyhnutelně k výběrové chybě. Tu si můžeme představit jako míru nejistoty, že údaj zjištěný výzkumem (například podíl voličů některé politické strany) neodpovídá přesně skutečnosti v celé populaci, že se od něj do určité míry liší.
Velikost této nejistoty, anebo naopak jistoty, že naše měření je přesné, je mimo jiné závislá na velikosti výběrového souboru. Když máme výběrový soubor malý, je výběrová chyba větší, když máme soubor velký, je výběrová chyba menší. Výběrový soubor o tisíci respondentech, o kterém lidé často soudí, že je malý, je ve skutečnosti dostačující pro poměrně přesná zjištění o populaci. Představme si hypotetickou situaci, že vůbec nevíme, jaký je ve společnosti podíl mužů a žen, zda je mužů 30 % a žen 70 %, zda je to 20/80, 40/60, anebo třeba úplně naopak. Když v takové situaci provedeme reprezentativní výzkum na 1 000 respondentech, naměříme například 51 % mužů a 49 % žen. Protože víme, že pracujeme s výběrem a nikoli celou populací, zohledníme výběrovou chybu. Ta v tomto případě činí tři procenta, která přičítáme a odečítáme od naměřených hodnot 51 a 49 procent (pro naměřené hodnoty nižší a vyšší než 50 % se velikost výběrové chyby symetricky snižuje a například pokud naměříme 20 anebo 80 %, pak výběrová chyba činí jen 2,5 %). V našem příkladu jsme tak výzkumem na 1000 lidech objevili, že v populaci se vyskytuje 48 - 54 procent mužů a 46 – 52 procent žen. To je v porovnání s naprostou neznalostí tohoto rozložení velice přesný výsledek – zjistili jsme, že to není ani 70/30 ani 80/20 ani 60/40 atd. Protože jsme zvolili příklad, pro nějž je skutečná hodnota v populaci známá, víme také, že jsme se našimi intervaly do skutečnosti trefili a že tudíž náš výzkum je přesný. A není třeba dodávat, že v naprosté většině otázek zjišťovaných v průzkumech o té správné hodnotě skutečně předem nic nevíme; že i přibližná informace zatížená výběrovou chybou +/- 3 procenta může přinést důležité poznání. (Pro odbornější veřejnost je třeba doplnit, že uvedený interval není stoprocentní jistotou, ale v závislosti na některých dalších nastavených kritériích například jen jistotou 95%, neboli že stále existuje 5 % riziko, že skutečná hodnota je mimo náš interval.)
A teď k otázce „Jak může stačit 1000 respondentů, když je v české populaci 10 milionů lidí?“. Ve skutečnosti na základě statistické teorie víme, že není důležité, jak velká je populace, ze které vybíráme jednotky do výběrového souboru. A to proto, že přesnost měření (šíře naměřeného intervalu) a spolehlivost (jistota, že skutečná hodnota leží v daném intervalu), které společně informují o výběrové chybě, se téměř výhradně vztahují k velikosti výběrového souboru (a dílem také k variabilitě cílové populace). Při výpočtu velikosti výběrové chyby tedy nebereme v úvahu velikost populace, o které chceme dělat závěry. Pro určení přesnosti měření je důležitá velikost výběrového souboru (a variabilita odpovědí).
Pojďme se tedy podívat, jak bychom naše hodnoty zpřesnili, kdybychom výběrový soubor zvětšili. Kdyby náš soubor měl pět tisíc respondentů, výběrová chyba u naměřené hodnoty 49 procent by činila 1,4 procenta. Věděli bychom tedy s 95 procentní jistotou, že podíl žen v populaci se nachází mezi 47,6 až 50,4 procenty. To je samozřejmě přesnější zjištění, ovšem ne až tak výhodné uvážíme-li, že realizace výzkumu na pětitisícovém souboru by nás stála přibližně pětkrát více peněz. A co kdybychom měli deset tisíc respondentů? Výběrová chyba by na tomto vzorku populace v případě 49 procentního zastoupení žen byla 1 procento, proporce žen v populaci by tedy podle tohoto průzkumu byla mezi 48 až 50 procenty. Další zpřesnění je opět relativně malé v porovnání s výrazným zvýšením finančních nákladů.
Pořád mluvíme o 1000 respondentech. Musí tedy výběrový soubor mít minimálně 1000 respondentů, aby o něčem vypovídal? Podle čeho se rozhodujete, kolik lidí dotážete?
Není tomu tak, že by výběrový soubor musel mít minimálně 1000 respondentů, aby měl vypovídající hodnotu. Tento počet se odvíjí od běžné praxe výzkumníků, kteří za rozumné náklady chtějí dostat co nejpřesnější odhad, tak jak je to popsané výše. Výběrové soubory s menším počtem respondentů než 1000 mají větší výběrovou chybu, a naopak navyšování respondentů nad 1000 již tuto výběrovou chybu nesnižuje tak velkým tempem. Lze ale říci, že například výběrové chyby pro 1000 respondentů a 950 respondentů se v zásadě neliší. Je tedy spíše územ z hlediska efektivity, že přibližně tisícovka respondentů přináší dostatečně přesné a spolehlivé výsledky v porovnání s náklady, které se na takto velký výzkum musí vynaložit.
Ve skutečnosti totiž platí, že pro získání představy o síle nějakého názoru za celou populaci, bez přílišných ambicí dívat se i na odlišnosti jednotlivých skupin, může dobře sloužit i soubor s 500 respondenty. U něj totiž výběrová chyba pro naměřenou hodnotu 49 procent činí 4,4 %, což není zas tak výrazně více, než 3 % v případě souboru s 1000 respondenty.
Nicméně větší velikost souboru je praktická i z dalšího důvodu, než jen kvůli snižování výběrové chyby. Čím je soubor větší, tím lépe nám umožňuje zjišťovat informace o podskupinách, například jak se od sebe v názorech liší muži a ženy, méně vzdělaní a více vzdělaní nebo lidé v různých věkových kategoriích. Větší celkový výběrový soubor znamená, že i v každém podsouboru bude více jednotek a tudíž i výběrová chyba na jednotlivých podsouborech bude nižší a závěry o nich přesnější a spolehlivější. Velikost výběrového souboru proto výzkumníci zvažují především podle hloubky analýz, které chtějí provádět, a dle přesnosti odhadů, které chtějí získat. A pro většinu situací je zkrátka 1000 respondentů optimální řešení.