系统误差(条件误差)
抽样误差(随机误差)
总离差=组内离差+组间离差
总的离差平方和
FMax检验方法
系统误差(条件误差)
抽样误差(随机误差)
总离差=组内离差+组间离差
总的离差平方和
FMax检验方法
“统计” 用数字的方法说明国家的特征;
统计分类:
线性相关:正相关&负相关
皮尔逊:两个变量等距
(2)2个变量是等级数距
(3)即数值又顺序
(4)2个名称变量
总体:可以是人,可以是事物
样本:
大样本:>=30
小样本<=30
survey: 大样本
experiment: 最少可以 5个
回归分析需要变量相关
一元线性回归 :自变量
测定系数、确定系数
回归引起的变异
多元指多个自变量
多重共线性
量化源于实证,主要使用演绎法,依赖统计
一。正态分布
曲线下面积比例固定;和平均数与标准差有关。
一。参数估计
根据样本统计量合理、科学地推断总体的参数。
二。参数估计的类型
1. 总体参数的点估计
点估计,即用样本计算出来的一个数来估计总体未知参数。由于它只是一个点值,所以被称为点估计。
不足
点估计得到的估计值可能高于也可能低于总体参数真值,也就是说总体参数的点估计总会有偏差。
不仅如此,总体参数的点估计还无法计算估计值与参数真值的接近程度和可靠程度。
2. 总体参数的区间估计
区间估计给出的时总体参数所在的范围,以及总体参数落在这个范围里的可能性(概率)。
第五讲:T检验
一。单样本T检验
1. 定义:检验样本平均数与总体平局书之间是否存在显著差异的统计手段,即平均数的显著性检验。
2. 类型:
Z检验:总体正态分布,方差已知
T检验:总体正态分布,方差未知(常见)
Z检验是T检验的一种特种方式,能做Z检验的情况一定也可以做T检验。
统计实践中,常用T检验。
二。独立样本T检验
两个无关联的样本平均数之间的差异检验,即平均数差异的显著性检验。
类型:
Z检验:两总体方差已知
T检验:两总体方差未知
小姐
独立样本T检验比Z检验适用范围更广,因为多数情况下,研究者并不知道总体的方差是多少。
两个总体方差相等的独立样本T检验应用范围更广。
两个总体方差不相等时,也可以使用T检验,但是计算方法不同。
三。配对样本T检验
两个样本的数据有某种关联,检验这两个相关联样本平均数之间是否存在差异。例如一个实验对象的两次测试成绩,就是两个相关数据。
使用配对样本进行配对样本T检验师,公式分母中的n-1也可以由n代替。
配对样本T检验还可以通过每个对子的差值(d)进行计算。
统计分类:
描述统计
推断统计
一、总体、抽样
总体:具有某种共同特征的个体综合,不总是指人,事物也可以;
样本:从总体中按照一定的原则和程序抽取的作为观察的一部分个体
抽样:按照一定的原则和程序从总体中抽取个体的过程。
简单随机抽样(每个个体被抽中的可能性是均等的):抽签法,随机数表法
等距/系统抽样:
分层抽样
变量:自变量是被研究者操纵的变量;因变量是研究者观察的变量
类被变量:
顺序变量:个体按照一定特征排序后再分出类别
等距变量:各种分数,专四专八分数等
连续变量:可以取小数的变量
频次变量:
描述集中趋势:平均数,中位数,众数
质性与量化研究
文字---数字
自然---实证
自然环境---实验环境
归纳法---演绎法
描述统计: 关注如何整理数据,汇报全貌
推断统计:关注如何利用数据做决断,并确定可靠性。
参考书:
张绍山,2008 《语言研究中的统计学》(2版),西安:西安交通大学出版社
Mann, P.Ps. 2004. Introductory Statistics (5th ed.). John Wiley & Sons, Inc.
零假设:
总体:人和事物都能指代
样本: 一部分个体:
30是样本的线:分为大和小
调查研究需大样本;实验研究小样本,最少5个
抽签法:50人以下
随机数表法:确定起点,随机上下走
自变量:被研究者操纵的变量;
因变量; 研究中观察的变量
测量精度角度
类别变量
顺序变量
等距变量:各种分数,
1.引言
2.文献回顾
3.研究方法
3.1 研究问题
3.2 研究对象
3.3 研究工具
3.4 分析方法
4. 研究结果与讨论
5.结论
1. 描述统计 descriptive statistics: 分组;集中趋势、离散趋势
2. 推断统计 inferential statistics:推断总体分布状态、差异程度、相关程度
提问→设计→统计
统计适用于解决规律性、趋势性、大样本的问题。
参数估计,假设检验。
1.找差异:T检验,方差分析
标准差(相对概念)
误差:抽样误差、系统误差
2.关联性问题:相关(共变),回归(预测)
回归:因变量(观测)、自变量(控制)
3.卡方检验
适用文科的统计软件:SPSS 13.0及以上版本
随机抽样、便利抽样
教育部 规划司 “教育统计数据
设计:收集数据的手段
1.问卷:态度类
2.实验:认知、心理
3.语料库:观测、语言现象
《外语教学科研中的统计方法》
总体:具有某种共同特征的个体的总和
人和食物都可以作为总体
样本:从总体中抽出的一部分个体
样本》30 大样本
样本《 30 小样本
调查研究常用大样本
实验研究常用小样本
抽样(sampling)
简单随机抽样 (抽签法-适合总体比较法
随机数表法- 适合于大数字, 任意选一个起点,按照一定的规律选择)
等距抽样/系统抽样
20 /100 每5个人抽取一个被试
在每5个数字中抽取一个样本
分层抽样
比如说按照大学类型或者以地理位置分布分层
原则:层内差异小,层间差异大
2. 变量
自变量 (independent variables)是我可以控制的变量 (教学法)
因变量(dependent variables)-我可以观察的变量 (成绩)
类别变量(nominal variables)不同的特征:性别家庭背景等
顺序变量 (ordinal variables) 在类别的变量的基础上将类别进行排序 比如说年级:一年级,二年级、 助教讲师副教授
等距变量 (interval variables) 就是各种分数,比如说专四专八考试分数,李克特量表等
连续型变量 (continuous varoables) - 可以有小数 0.5 的部分有意义 比如说雅思的平均成绩是6.5
频次变量 (frequency variables)- 只有零和正整数, 比如说今天来了16个人,不能说16.5个
数据的整理和描述
1. 集中趋势
平均数 (mean)
中位数 (median)
众数 (mode)
离散趋势
全距 (range)
平均差 (average deviation)
方差 (variance )
标准差 (standard deviation)
方差和标准差其实是一回事 方差是经过平方的, 在实际使用的时候不好用
我们在工作中实际使用的是标准差
实际得分减去平均数, 然后平方, 然后求和,然后除以人数
标准差越小, 学生和学生之间的差异越小
针对连续变量:在针对连续型变量的时候一定要同时汇报集中趋势(平均数)和离散趋势(标准差)
针对频次变量:只需要描述个数
比如说这次实验中有男生5个女生4个
推断统计方法概述 (inferential statistics)是按照一定的原理,用样本的数字来做推断
样本统计量 (statistics)
总体参数 (parameters)
他两的平均数和标准差的字母标记方式不一样,但是基本上是一样的东西。比如说在样本统计量里平均数用的是(m), 标准差用的是(STD ), 而再总体参数里平均数用的是μ, 标准差用的是A
推断统计一般来说做两件事:
参数统计 (parameter estimation)-比如说有了样本的平均数和标准差, 我们可以推断总体参数的数值
假设检验 (hypothesis testing)- 上边估计出来的总体参数, 你估计它有多少可能是正确的
推断统计的类型:
1. 如果是为了找差别, 那就用T检验和方差分析
2. 如果是为了找关系,就用
相关检验
回归检验
卡方检验
参数估计
参数估计就是根据样本统计量来推断总体参数
256人的平均分是482
总体平均数叫μ
参数估计可以分成点估计和区间估计,
点估计的这个值是一个点值
例子:
点估计是基于样本数据得到的 所以它的估计不太准确, 而且点估计没有办法判断参数
区间估计(interval estimation)就是给出总体参数所在的范围,以及总体参数在这个范围内的可能性有多大。
例子
点估计是用一个数值来估计总体的参数
区间估计是用一个范围,所以它的估计方法更正确
非常有用:
置信水平(confidence level):我们不可能做到100%, 我们要留有区间。 我们要有95%及以上的把握, 这样我们才能说我们的推测是有效的。
总体参数的区间估计如何计算
第一计算标准误(standard error)
我们不知道总体标准差, 所以我们只能通过样本来推测 -- 公式1: 用样本标准差除以样本量开根号
第二部通过标准误来计算置信临界值(confidence limit)
用可靠程度(95%)去查临界值(z)-- 上网搜正态分布表,可以移动一个数值的轴查到相应的Z值(临界值), 比如说这个95%的置信水平对应的临界值是+-1.96
意思就是当你有95%把握的时候, 白色的区域都是合理的区域,有阴影的位置都是错误的区域
第三部分:估计总体参数的区间
公式2: 用样本的平均数减去总体的平均数再除以标准误, 这个数字需要在上边说到的-1.96到1.96之间。
最后我们算出来μ是在478-486 这个就是区间。
Zfen shu