十讲走进语言统计学 - U讲堂

卡方检验

一、概述

1.作用：检验样本代表的总体的分布状态是否与某种分布状态相吻合
2.是一种非参数检验：不是通过样本数据推断总体参数和估计的把握程度
频次数据（frequency），总体分布状态未知，对总体分布状态进行假设检验
3.特点：卡方值具有可加性，是正数；卡方值小，样本分布拟合理论分布，卡方值大，样本分布不拟合理论分布。

二、卡方拟合性检验/单因素卡方检验（是否符合某种分布，如正态分布）

三、卡方独立性检验/双因素卡方检验（列联表）

例如：性别与课外活动类型之间是否存在关联
得出结论总体有关联之后，观察列联表，如男生体育活动频数大于相应的理论频数，则男生多从事体育活动。
还可以做同质性检验，即重复测量结果的前后一致性

检验公式的微调：当df=1且有理论频数小于5时，要是用亚茨连续性校正法

[展开全文]

uzsclarap91 · 2022-01-10 · 课程视频 0

多因素方差分析

非参数检验

[展开全文]

uzsclarap91 · 2022-01-10 · 课程总结 0

回归分析

一、概述

1.相关分析的局限：只表示双向互动关系，不够具体，但精确数量关系做不到。
2.回归分析探索变量间关系的数学表达，通过回归方程，以相关为前提，否则不能做回归分析。

二、一元线性回归

1.定义：只有一个自变量的回归，回归方程y=a+bx
2.回归方程的预测作用r^2（回归系数）：因变量的总变异（离差平方和）可分解为回归和误差引起的变异，回归引起的变异就是r^2（通常用百分数表示），误差变异就是1-r^2。
3.预测作用与误差相比谁大：F检验
一元回归中，F检验df1=1，df2=n-2

三、多元线性回归简介

1.多元就是多个自变量，回归方程y=a+b1x1+b2x2+...+bkxk
2.一元与多元相同：回归方程，测定系数，检验系数的显著性
3.不同：计算方法，多元需要检验各个回归系数是否显著

四、回归关系的本质：解释关系（区分自变量和因变量，而相关分析不区分、考察共变关系）
多元回归陷阱：多重共线性（各自变量之间高度相关）会降低自变量对因变量的解释力
多元回归方法：
强制回归法：验证性分析，考察所有自变量对因变量的解释作用，不考虑自变量回归系数的显著性
逐步回归法：探索性分析，按照自变量对因变量解释作用的大小，使之一次进入回归方程，关注张斌了回归系数的显著性及其作用大小

[展开全文]

uzsclarap91 · 2022-01-10 · 课程视频：回归分析 0

自变量-independent variables 被研究者操纵的变量

因变量dependent variables 研究者观察的变量

例如交际教学法与语法翻译法对学生英语口语成绩提升那个更有效？

自变量：教学法（两个水平）

因变量：学生的口语成绩。

类别变量：nominal variables比如性别，家庭背景

顺序变量oridnal variables：比如年级，行政职务，职称

等距变量 interval variables 各种分数

cet 4, TEM8, 李克特量表

连续变量： continuous variables 可以取小数的变量

比如四六级分数

频次变量（frenquency variables）：次数等；只能是0或正整数。

描述集中趋势：

平均数（mean）

中位数（median）

众数（mode）

离散趋势

全距（range）

平均差（average deviation）

方差（varance）和标准差（standard deviation）

连续变量：平均数和标准差

3. 推断统计的任务

1）样本统计量（statistics）: 平均数；标准差

2）总体参数（parameters）

两个任务

1）参数估计（parameter estimation）

2) 假设检验（hypothesis testing）

4. 推断统计的类型

1）以寻找差异为目的的推断统计

T检验；方差分析

2）以寻找关系为目的的推断统计：相关；回归；卡方检验。

[展开全文]

unancysmile · 2022-07-25 · 课程视频：统计基本概念 0

一、总体、样本与抽样

总体（popuiation）是我们所研究的具有某种共同特征的个体总和。

中国非英语专业大学生

北京市高职高专学生

中国大学生需掌握的积极词汇量

样本（sample）是从总体中抽取按照一定的原则和程序抽取的作为观察对象的一部分个体。

样本容量大于或等于30个个体的，在统计学上称为“大样本”

样本容量小于30个个体的，在统计学称为“小样本”

通常来说，调查研究需要使用大样本，实验研究可以使用小样本

抽样（sampling）是按照一定的原则和程序从总体中抽取个体的过程。

抽样最重要的原则：是要保证样本对于总体具有良好的代表性。

量化研究中三种常用的抽样方法：

简单随机抽样：指的是总体中每个个体被抽中的可能性是均等的一种抽样过程。

（抽签法：适用总体数较小。随机数表法：适用总体稍大。）

等距/系统抽样：是按照一定等距间隔在总体中抽取个体的过程。

分层抽样：按照总体已有特征，将其分成几个不同的部分（即层），然后再分别在层内进行简单随机抽样或等距/系统抽样的过程。

“层内差异小，层间差异大”

二、变量

从相互关系角度划分

自变量（independent variables）:被研究者操纵的变量

因变量（dependent variables）：研究者观察的变量

从测量精度角度划分

类别变量（norminal variables）：把个体按照某一特征分成不同类别

性别、家庭背景、学校类别

顺序变量（ordinal variables）：把个体按照一定特征排序后再分出类别

年级、行政职务、职称

等距变量（Interval variables）：各种分数

从数学特性角度划分

连续变量（continuous variables）:可以取最小的变量

四六级分数等，比例/比率

频次变量（frequency variables）：只能取零或正整数的变量

个数、人数、次数

三、数据整理和描述

描述集中趋势：样本多数个体体现的集中特点

常用的集中趋势统计量：平均数（mean）、中位数（median）、众数（mode）

描述离散趋势

常见的离散趋势统计量有：

全距（range）、平均差（average deviation）、方差（variance）和标准差（standard deviation）

描述数据注意事项：

针对连续变量：既要描述集中趋势（平均数），又要描述离散趋势（标准差）

针对频次变量：只需描述其中各类别的个数/次数/人数

四、推断统计方法概述

1.推断统计的任务

推断统计：按照一定的原理，利用样本统计量对总体参数进行推论。

样本统计量

总体参数

2.推断统计的类型

宏观分为两类：

以寻找差异为目的的推断统计：T检验、方差分析

以寻找关系为目的的推断统计：相关、回归、卡方检验

[展开全文]

ubaidjvp · 2019-09-25 · 课程视频：统计基本概念 0

量化研究：实验；准实验；调查；语料库；元分析

质性研究：观察；访谈；日志；叙事；民族志

描述统计descriptive statistics 只对样本做统计

推断统计inferential statistics

[展开全文]

unancysmile · 2022-07-25 · 课程导学 0

第二讲正态分布与标准分

一、正态分布（曲线）

中间高两边低；轴对称；无限延伸

正态曲线下面积

比较固定；与标准差和平均数有关；查表

二、标准分

[展开全文]

ubaidjvp · 2019-05-06 · 课程视频：正态分布和标准分 0

元分析

集中趋势

离散趋势

重点是推断统计

[展开全文]

尚巾 · 2019-11-04 · 课程导学 0

一、参数估计的定义

参数估计：根据样本统计量合理、科学地推断总体参数的过程。

二、参数估计的类型

点估计：用样本计算出来的一个数来估计总体未知参数。

不足：点估计得到的估计值可能高于或低于总体参数真值。

总体参数的点估计还无法计算估计值与参数真值的接近程度和可靠程度。

区间估计：给出总体参数所在的范围，以及总体参数落在这个范围的可能性（频率）。

置信区间（confidence interval）、置信水平（confidence level）

[展开全文]

ubaidjvp · 2019-05-07 · 课程视频：参数估计 0

第四讲假设检验

一、研究问题与假设

研究问题：明确指出核心概念和研究焦点的疑问句。

假设：对研究问题的预判性回答，分为研究假设（research hypothesis）和零假设（null hypothesis）。

零假设：相同，无差别

研究假设：不同，有差异

二、误差

抽样误差（随机误差）：用样本信息推断总体信息时产生的误差，它是不可避免的。

系统误差（systematic error），也称规律误差，是由自变量引起的因变量变化。

三、假设检验（hypothesis test）（显著性检验）（test of significance）

统计学上规定了一个抽样误差限度（用希腊字母表示），即 =0.05，被称作显著水平（level of significance）

如果差距没有超过这个限度，则认定是抽样误差引起的。

如果差距超过这个限度，则认定是系统误差引起的。

假设检验对象：零假设

通常来说，在0.05显著水平上如果抽样误差在差异中占比更大，则接受零假设；如果系统误差在差异中占比更大，则拒绝零假设。

假设检验注意事项

（1）两类错误：一类错误：零假设是真实的，却被拒绝了。

二类错误：零假设是虚假的，却被接受了。

（2）单尾和双尾：单尾检验：零假设陈述中有方向性（A高于B）（B高于A）

双尾检验：零假设陈述中无方向性（A和B无显著差异）

[展开全文]

ubaidjvp · 2019-05-07 · 课程视频：假设检验 0

1.平均数

2. 标准差（std.）

标准差的大小

标准差的大小是相对的，只有比较时才有意义（只有标准差相差不大时才有可比性，这时就需要做方差分析了）

3. 参数估计

4. 假设检验

5. 误差

抽样误差（无法避免）、系统误差（可操纵）

6. 加权（权重）平均分

预测性问题（回归）

差异性问题

自变量：控制

因变量：观测

随机抽样：保证被试被抽中的几率是一样的

规律性、趋势性、大范围（n>=30）的问题，用统计。

研究设计与统计的关系：问卷、实验、语料库

问卷：收集有关态度的问题

实验：收集与认知、心理活动有关的问题

语料库：

观测、语言现象

统计方法选择问题

T-test、ANOVA、Correlation、Regression、卡方

SPSS 13.0以上均可适用

[展开全文]

萍聚d4izv · 2021-10-31 · 名师见面会视频 0

小结：使用相关系数进行配对样本T检验时，公式分母中的n-1也可以由n代替。

配对样本T检验还可以通过每个对子的差值（d）进行计算（见教材84-85页）。

[展开全文]

ubaidjvp · 2019-05-07 · 课程视频：T检验 0

第六讲方差分析

一、对T检验的反思

只能两组进行检验

风险：加大了一类错误的概率

新的解决方案：将系统误差（条件误差）和抽样误差（随机误差）分离

总差异=条件误差+随机误差

条件误差比随机误差大，差异存在。

总差异=组间差异+组内差异

组间差异=条件误差

组内差异=随机误差

组间差异比组内差异大，就好了。

二、方差分析原理

三、方差分析统计前提

总体服从正态分布

样本足够大时，可假定数据服从正态分布

样本较小时，可通过卡方拟合度检验来检验数据的正态性

如果数据非正态分布，可采用相应的非参数检验方法。

变异来源相互独立

组间变异、组内变异需要来自不同部分，要明确，彼此相互独立

各组方差一致

方差一致性也称方差齐性（homogeneity of variance），是方差分析的前提条件。

检验方法：

[展开全文]

ubaidjvp · 2019-05-07 · 课程视频：方差分析（1） 0

总体 population

样本 sample

大样本（调查研究）、小样本（实验研究）

抽样 sampling

抽样原则：具有良好的代表性

简单随机抽样：抽签法（30以内）、随机数表法（100以内）

等距或系统抽样

分层抽样

如何分层：层内差异小，层间差异大

变量

自变量

因变量

类别变量

顺序变量

等距变量

连续变量(集中趋势-平均数&离散趋势-标准差)

频次变量

平均数

离散趋势

标准差

[展开全文]

尚巾 · 2019-11-05 · 课程视频：统计基本概念 0

正态分布（曲线）

正态曲线下面积（与平均数和标准差有关）

标准分z

[展开全文]

尚巾 · 2019-11-09 · 课程视频：正态分布和标准分 0

第七讲方差分析（2）

一、单因素组间方差分析（One-way ANOVA）

也称完全随机方差分析（complete randomized ANOVA），指的是把被试随机分为若干组（大于等于3组），每组只接受一种实验处理、因此，这些组之间是相互独立的。

（1）各组样本量相同（常见）

（2）各组样本量不同

二、方差分析事后检验

必要性：当F统计量达到显著水平（P<0.05）水平时，说明至少有一对组平均数的差异是显著的。需要进一步检验将它们找出来、这个过程被称为事后检验（post hoc comparison），也称平均数的逐对比较，或多重比较。

其手段众多，常用的如下：

（1）T检验（LSD）（常用）

（2）q检验（HSD）

三、小结

方差分析种类

依据自变量个数，可分为

单因素和多因素（双因素）

依据自变量水平间关系，可分为

组间、组内、混合

平方和可分解是其基本原理

总平方和、组间平方和、组内平方和

其他类型方差分析在此基础上变形，如：

随机区间方差分析

多因素方差分析

方差分析常需要做事后检验

在F统计量达到显著水平时，要做事后检验

事后检验方法不同，结果会稍有不同

多因素分析结果中如果交互作用达到显著水平，要做简单效应检验（详见第7章第7节）

[展开全文]

ubaidjvp · 2019-05-09 · 课程视频：方差分析（2） 0

总体参数的点估计（会有偏差）

总体参数的区间估计（概率）

置信区间

置信水平（95%及以上，才是有效的）

区间估计步骤一：标准误

步骤二：置信临界值

步骤三：估计总体参数所在区间

置信临界值 95% 置信临界值正负1.96

99% 正负2.58

[展开全文]

尚巾 · 2019-11-09 · 课程视频：参数估计 0

研究问题（核心概念，研究焦点）

研究假设：有差异假设

零假设：无差异假设

误差：抽样误差（随机误差，不可避免）&

系统误差（规律误差）

抽样误差和系统误差总是混合在一起的

显著性检验（假设检验）

显著水平

假设检验是针对零假设的

假设检验中的2类错误

一类错误（拒真错误）

二类错误（取伪错误）

双尾检验（更多）

单尾检验

[展开全文]

尚巾 · 2019-11-09 · 课程视频：假设检验 0

单样本（检验分为Z检验&T检验）T检验：平均数的显著性检验频率更高

T检验：自由度（df）

独立样本T检验

配对（相关）样本T检验

[展开全文]

尚巾 · 2019-11-12 · 课程视频：T检验 0

标准差：最高分和最低分与平均分之间的差值。

参数估计：用一部分数据推测全体

抽样误差：正好遇上了拖后腿的

预测

回归：三次模拟考试回归到因变量
自变量：人为控制的变化

因变量：观察得到的数据

抽样：在实际中常采用便利抽样

教育部——规划司——教育统计数据

统计的作用：1找差异，2预测

样本大于等于30就可以用统计

统计设计

问卷：适合收集态度类信息

实验：与认知、心理活动有关的研究，用实验

语料库：观测语言现象音、形、义

找差异

2组之间差异：T检验（独立样本T检验、

3组及以上之间差异：方差分析(ANOUA)

找关联

共变关系：

预测关系：回归（1个因变量；2+因变量）

[展开全文]

霏娛 · 2021-01-15 · 名师见面会视频 0

授课教师

最新学员

学员动态