По итогам выборочных обследований, для некоторой категории сотрудников, величина их месячного заработка xi тыс. рублей и соответствующее количество сотрудников ni представлены в виде интервального статистического распределения.
а) Построить гистограмму относительных частот распределения.
б) Найти основные характеристики распределения выборочных данных: среднее выборочное значение, выборочную дисперсию и выборочное среднее квадратическое отклонение.
в) Оценить генеральные характеристики по найденным выборочным характеристикам точечным образом.
г) Зная, что значения признака X в генеральной совокупности подчинены нормальному закону распределения, найти доверительный интервал для оценки математического ожидания (генерального среднего значения) с надежностью ϒ считая, что генеральная дисперсия равна исправленной выборочной дисперсии.
X 8-8,2 8,2-8,4 8,4-8,6 8,6-8,8 8,8-9,0
ni
3 7 20 15 5
ϒ=0,88
Решение.
Получим интервальный ряд:
Номер i
Интервалы Середина интервала
xi
Нижняя граница интервала Верхняя граница интервала
1 8 8,2 8,1
2 8,2 8,4 8,3
3 8,4 8,6 8,5
4 8,6 8,8 8,7
5 8,8 9 8,9
Найдем абсолютные частоты, относительные и интегральные (накопленные частоты).
Порядковый номер i
Зарплата за месяц xi
Абсолютная частота ni
Относительная частота (частость)
wi=niN
Накопленная частота
niнакопл
Накопленная частость
wi(накопл)
1 8,1 3 0,06 3 0,06
2 8,3 7 0,14 10 0,2
3 8,5 20 0,4 30 0,6
4 8,7 15 0,3 45 0,9
5 8,9 5 0,1 50 1
Σ
N=50
1
Для наглядности интервальные ряды изображают графически с помощью полигона и гистограммы.
Для построения полигона и гистограммы используется прямоугольная система координат, на оси абсцисс которой строится шкала значений (интервальные группы), а на оси ординат – частот или частостей.
Таким образом, построим в excel гистограмму частот.
Построим в excel полигон частот.
По накопленным частостям строится кумулята (графическое представление эмпирической функции распределения). Кумулята отражает характер нарастания частостей от группы к группе.
Если оси поменять местами, т.е. группы откладывать на оси ординат, а накопленные частости – на оси абсцисс, то построенная кривая будет называться огивой. Построим огиву в excel в виде гистограммы.
Далее.
Составим вспомогательную таблицу для вычисления выборочных характеристик ряда.
i
xi
ni
xi∙ni
(xi-x)
(xi-x)2∙ni
1 8,1 3 24,3 -0,448 0,602112
2 8,3 7 58,1 -0,248 0,430528
3 8,5 20 170 -0,048 0,04608
4 8,7 15 130,5 0,152 0,34656
5 8,9 5 44,5 0,352 0,61952
Σ
N=50
427,4
2,0448
На основании таблицы найдем.
Математическое ожидание (средняя арифметическая взвешенная):
x=i=15xi∙niN,
x=427,450=8,548.
Отсюда средняя заработная плата одного рабочего за месяц равна приблизительно 8,548 тысяч рублей.
Дисперсия (дисперсия – характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).
DX=i=15(xi-x)2∙niN=2,044850=0,040896.
Среднеквадратическое отклонение.
σ=DX≈0,202.
Показатели вариации. Вычисляются для суждения о вариации признака в статистике.
Среднее линейное отклонение – средняя арифметическая из абсолютных значений отклонений отдельных вариантов xi от их средней x. Вычисляют для того, чтобы учесть различия всех единиц исследуемой совокупности.
d=ixi-x∙niN,
d=8,0850=0,1616.
Каждое значение ряда отличается от другого в среднем на 0,162.
Несмещенная оценка дисперсии – состоятельная оценка дисперсии.
S2=i=15ixi-x2∙niini-1=2,044849≈0,042.
Оценка среднеквадратического отклонения.
s=S2=0,042≈0,204.
Пусть случайная величина имеет нормальное распределение. Используя метод моментов и метод максимального правдоподобия получения точечных оценок, найти по выборке B значения оценок и неизвестных параметров a,σ.
Приравняем начальный теоретический момент первого порядка и центральный теоретический момент второго порядка эмпирическим моментам:
a*=x, σ*=DX,
a*=8,548, σ*=0,202
Метод максимального правдоподобия.
Составим и решим систему:
∂lnL∂a=0,∂lnL∂σ=0.
Где функция правдоподобия:
L=fx1*fx2*…*f(xn)
fxi=1σ*2*π*e-(xi-a)22*σ
-плотность нормального закона.
L=1σn*2*πn*e-(xi-a)22*σ2
lnL=ln1σn*2*πn+lne-xi-a22*σ2
lnL=-lnσn-ln2*πn-xi-a22*σ2
∂lnL∂a=-xi-n*aσ2,∂lnL∂σ=-nσ+xi-a2σ3.
Откуда следует, что
xi=n*a; a*=xin=x=8,548.
xi-a2=n*σ2;
σ2=xi-a2n;
σ=DX=0,202.
Интервальное оценивание.
Интервальной оценкой называют оценку, которая определяется двумя числами – концами интервала, покрывающего оцениваемый параметр.
Используем найденные ранее выборочное среднее
xв=8,548.
и исправленное среднее квадратическое отклонение:
s≈0,204.
В нашем случае 2Φ(tγ) =γ; Φtγ=0,44;
По таблице функции Лапласа найдем, при каком tγ критическом значение Φtγ=0,44:
tγ=1,56.
Теперь найдем искомый доверительный интервал:
xв-tγsn<a<xв+tγsn;
8,548-0,045<a<8,548+0,045;
8,503<a<8,594.
С вероятностью 0,88 можно утверждать, что среднее значение при выборке большего объема не выйдет за пределы найденного интервала.
Элементы теории корреляции
Задачи 61 – 70 (68)
С целью анализа взаимного влияния прибыли предприятия и его издержек выборочно были проведены наблюдения за этими показателями в течение ряда месяцев: X – величина месячной прибыли в т.р., Y – месячные издержки в процентах к объему продаж. Результаты выборки представлены в виде таблицы.
По данным выборки:
а) оценить тесноту линейной связи между признаками Х и Y;
б) найти зависимость между признаками в виде уравнения линейной регрессии у‾ х = ах+ b;
в) построить графически наблюдаемые выборочные значения признаков и прямую регрессии.
г) Используя уравнение линейной регрессии, спрогнозировать величину месячных издержек в процентах к объему продаж, если величина месячной прибыли будет составлять Х = K т. р.
Х 55 65 75 85 95
Ү 24 20 18 15 10
К=105
Решение.
Данная корреляционная зависимость представляет собой зависимость между месячными издержками в процентах к объему продаж Y и величина месячной прибыли X (тыс.руб.).
Определение формы связи с последующим отысканием параметров уравнения называется нахождением уравнения связи (уравнения регрессии). В нашем случае результативный признак, рассматриваемый как функция x yx , имеет прямолинейную форму связи: yx=a0+a1x.
Параметры для уравнения связи определяют из системы нормальных уравнений, отвечающих требованию метода наименьших квадратов (МНК). Это требование можно записать как y-yx2→min или y-a0-a1x2→min. Необходимо определить, при каких значениях параметров a0 и a1 сумма квадратов отклонений y от yx будет минимальной. Найдя частные производные указанной суммы по a0 и a1и приравняв их нулю, легко записать систему уравнений, решение которой и дает параметры искомой функции, т.е. уравнения регрессии.
Так, система нормальных уравнений при линейной зависимости имеет вид
na0+a1x=y,a0x+a1x2=xy.
Необходимые для решения данной системы показатели n, x, y, x2, xy
Определяются по наблюдаемым эмпирическим данным. Решить данную систему можно методом Крамера.
Найдем определитель матрицы коэффициентов системы уравнений:
Δ = nxxx2=nx2-x2,
Найдем первый определитель матрицы коэффициентов. Для этого вместо 1-
го столбца подставим столбец свободных членов:
Δ1 =yxxyx2=yx2-xxy,
Найдем второй определитель матрицы коэффициентов. Для этого вместо 2-го
столбца подставим столбец свободных членов:
Δ2 =nyxxy=nxy-xy,
Найдем решение системы уравнений:
a0=yx2-xxynx2-x2; a1=nxy-xynx2-x2.
Параметр a1 (коэффициент при x ) именуется коэффициентом регрессии. Он показывает, насколько в абсолютном выражении изменится результативный показатель y при изменении факторного показателя x на единицу.
Составим расчетную таблицу:
N=5 x
y
x2
xy
y2
55 24 3025 1320 576
65 20 4225 1300 400
75 18 5625 1350 324
85 15 7225 1275 225
95 10 9025 950 100
Σ
375 87 29125 6195 1625
Отсюда:
a0=87∙29125-375∙61955∙29125-375∙375=2107505000=42,15,
a1=5∙6195-375∙875∙29125-375∙375=-16505000=-0,33.
Получим линейное уравнение регрессии Y на X:
yx=42,15-0,33∙x.
Получим линейное уравнение регрессии X на Y:
a0=xy2-yxyny2-y2; a1=nxy-xyny2-y2;
a0=70410556≈126,637,
a1=-1650556≈-0,97.
xy=126,637-0,97∙y.
Подставляя в уравнение yx=42,15-0,33∙x последовательно значения x=55,65,75 и т.д., получаем выравненные (теоретические) значения результативного показателя yx :
yx
24
20,7
17,4
14,1
10,8
87
Нахождение уравнений регрессии, как правило, сопровождается измерением тесноты связи (зависимости). Измерить тесноту корреляционной зависимости – значит, определить, в какой мере вариация результативного показателя вызвана вариацией факторного признака. Эта задача может быть решена путем исчисления теоретического корреляционного отношения η:
η=δσy=δ2σy2,
где δ2=yx-y2n – дисперсия в ряду выравненных значений результативного показателя yx; σy2=y-y2n – дисперсия в ряду фактических значений y.
Так как дисперсия δ2 отражает вариацию в ряду yx только за счет вариации фактора x, а дисперсия σy2 отражает вариацию y за счет всех факторов, то их отношение, именуемое теоретическим коэффициентом детерминации, показывает, какой удельный вес в общей дисперсии ряда y занимает дисперсия, вызываемая вариацией фактора x. Квадратный корень из отношения этих дисперсий дает нам теоретическое корреляционное отношение η=δ2σy2.
Дисперсию теоретических значений результативного показателя (т.е. δ2) часто называют факторной, поскольку она отражает влияние вариации фактора x на вариацию y, и обозначают как δф2 и так называемой остаточной дисперсии σост2, отражающей вариацию результативного показателя за счет всех остальных факторов (кроме x), не учтенных в уравнении регрессии, т.е.
σy2=δф2+σост2.
Получим еще одну формулу для вычисления корреляционного отношения:
η=σy2-σост2σy2=1-σост2σy2.
В данном виде корреляционное отношение при криволинейной зависимости обычно называют индексом корреляции.
Остаточная дисперсия рассчитывается по формуле:
σост2=yi-yx2n.
Отсюда следует формула для линейного коэффициента корреляции:
r=a1σxσy,
или:
r=(x-x)(y-y)x-x2y-y2,
а также:
r=xy-xynx2-x2ny2-y2n.
Для измерения тесноты зависимости между y и x воспользуемся прежде всего линейным коэффициентом корреляции (поскольку рассматриваемая зависимость – линейная):
r=(x-x)(y-y)n∙σxσy.
Находим
x=3755=75; y=875=17,4;
x-x
y-y
(x-x)(y-y)
(x-x)2
(y-y)2
-20 6,6 -132 400 43,56
-10 2,6 -26 100 6,76
0 0,6 0 0 0,36
10 -2,4 -24 100 5,76
20 -7,4 -148 400 54,76
Σ
0 7,10543E-15 -330 1000 111,2
Отсюда находим σx и σy:
σx=(x-x)2n, σx=10005=200≈14,142;
σy=(y-y)2n, σy=111,25=22,24≈4,72.
Отсюда следует, что
r=1239-75∙17,414,142∙4,72≈-0,989.
Значение линейного коэффициента корреляции r=-0,989 характеризует не только меру тесноты зависимости вариации y от вариации x (достаточно высокая связь), но и степень близости этой зависимости к линейной.
Связь обратная, т.е. с ростом X убывает Y.
Построим линии регрессии (в excel):
yx=42,15-0,33∙x.
xy=126,637-0,97∙y.
Поле корреляции:
MarketingManagement 5.0
Выполняю работы по экономическим дисциплинам. Маркетинг, менеджмент, управление персоналом. управление проектами. Есть опыт написания магистерских и кандидатских диссертаций. Работала в маркетинге. Практикующий бизнес-консультант.
Готовые работы на продажу
Гарантия на работу 10 дней.
Виды заключений эксперта , их проверка и оценка
- Курсовая работа
- Право и юриспруденция
- Выполнил: EkaterinaKonstantinovna
Аудиторское заключение и представление информации по результатам проверки
- Курсовая работа
- Бухгалтерский учет и аудит
- Выполнил: ale350
На странице представлен фрагмент
Уникализируй или напиши новое задание с помощью нейросети
Похожие работы
Определить сопротивление растеканию сложного заземления
Определить сопротивление растеканию сложного заземления, состоящего из вертикальных стержневых заземлителей и горизонтальной полосы. Исходные данные принять по варианту, номер которого совпадает с последней...
3 Заносим числовые данные по задаче в 5 столбец и 6 столбец
3. Заносим числовые данные по задаче в 5 столбец и 6 столбец. Данные столбца 5 – это данные уровня притязаний, а столбца 6 – силы воли Кодируем переменные: для этого переходим с листа «представление...