Lecture1 introductions
Introduction
All of the notes that you’re about to see were written while I was watching the open course at Yale. and this was my first attempt at writing notes in English, which means that many mistakes in synax and grammar are quite possible.
Why I choose wrting English class notes is to make this experience more meaningful!
Lecture 1
Overview
We introduce Game Theory by playing a game. We organize the game into players, their strategies, and their goals or payoffs; and we learn that we sh ...
Lecture 3- Iterative Deletion and the Median-Voter Theorem
Introduction
We apply the main idea from last time, iterative deletion of dominated strategies, to analyze an election where candidates can choose their policy positions. We then consider how good is this classic model as a description of the real political process, and how we might build on it to improve it. Toward the end of the class, we introduce a new idea to get us beyond iterative deletion. We think about our beliefs about what the other player is going to do, and then ask what is the be ...
方差分析
本章小结
方差分析的基本原理——误差来源分解(理解)
方差分析的基本假设(理解)
单因素方差分析(重点)
有/无交互作用的双因素方差分析(理解)
方差分析就是检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著性影响。
在研究一个或者多个分类型自变量和一个数值型因变量之间的关系时,方差分析是主要的方法。
有关术语
在方差分析中,要检验的分类型自变量叫做因素或者因子(factor)。
因素的不同表现称为水平或者处理。
每个因子水平下得到的样本数据称为观测值。
例如, 要分析行业对被投诉次数是否有显著影响。这里的行业是要检验的对象,称为因素或因子;
零售业、旅游业、航空公司、家电制造业是行业这一因素的具体表现,称为水平或处理;
在每个行业下得到的样本数据(被投诉次数)称为观测值。由于这里只涉及行业一个因素,因此称为单因素 4 水平的试验。
因素的每一个水平可以看做一个总体,如零售业、旅游业、航空公司、家电制造业可以看做 4 个总体,上面的数据可以看做从这 4 个总体中抽取的样本数据。被投诉次数是一个数值型变量,行业是自变量,一个分类型变量。
基本 ...
解读正则化
正则化是为了避免过拟合现象的出现而出现的,本质是对模型训练误差和泛化误差的一个平衡(过拟合下的泛化能力是比较弱的)。正则化是机器学习中的一种叫法,其他领域叫法各不相同:
机器学习把L1L_1L1和L2L_2L2叫 正则化,统计学领域叫 惩罚项,数学领域叫 范数
不加入正则化项,我们的目标是最小化损失函数,即经验风险最小化。
加入正则化项,目标变成了最小化损失和复杂度之和,这个称为结构风险最小化。
结构风险最小化时在往往会在正则化项前加一个系数,一般称为正则化系数或者是惩罚系数,这个系数来平衡模型的泛化能力和预测能力的权重。
正则化项一般形式是:
β^=argmin(∑i=1n((yi−∑j=1pxijβj)2+∑j=1p∣βj∣q))\hat{\beta}=argmin(\sum_{i=1}^n((y_i-\sum_{j=1}^px_{ij}\beta_j)^2+\sum_{j=1}^p|\beta_j|^q))
β^=argmin(i=1∑n((yi−j=1∑pxijβj)2+j=1∑p∣βj∣q))
在实际运用过程中,比较常用的是L1L_1L1和L2L_2 ...
Magic * in Python
Python 中的*除了常见的以下操作以外:
乘法符号’*’
导入包内所有内容
除了上述简单的操作以外,’*'还可以实现一些 Python 容器(tuple、list、)里的迭代运算符号。
迭代运算符号
感觉这块的*像是一个简单的迭代生成器,‘*+容器’能够将容器中所有的元素都迭代出来,不过也应该注意的是可以用一个*进行迭代,也可以用两个*进行迭代具体含义是有区别的:
一个星号经常用于迭代元组和列表之类的结构
两个星号会用来迭代字典结构,不过一个星号也可以用于字典对象,迭代生成的是字典的 key 值
def my_add(x,y,z,w): return x+y+z+wdef my_newadd(*pg): print(pg)a=(1,2,3,4)b=['a','b','c','d']print(b)print(*b)d=dict(zip(b,a))my_add(*d)my_newadd(*b)my_newadd(b)
在实际应用过程中,因为’*'的这一特殊作用,常被用作自定义函数的位置 ...
假设检验
这篇文章主要介绍了假设检验的一些方法。
Vscode常用快捷键
一些应该会用到的快捷键
快捷键
描述
Ctrl+Shift+Space
调整输入参数提示是否激活
F12
前往定义
F2
重命名变量
Ctrl+N
新建文件
Ctrl+P
跳转文件
Ctrl+Shift+P
调出命令面板
Ctrl+/
切换行注释(打开→关闭)
Shift+Alt+A
切换块注释
F5
运行
Ctrl + Alt +↑/↓
插入多个光标(常用于批量去除缩进等操作)
F2
选中文件按F2可以进行重命名,按一下重命名文件名字,两下是全名,三下是后缀名(v1.71新功能)
全局
快捷键
描述
Ctrl+Shift+P
调出命令面板
Ctrl+P
快速打开文件
Ctrl+Shift+N
打开新的工作区
基本的编辑
快捷键
描述
Ctrl+Shift+K
删除行
Ctrl+Enter
在本行的下边插入一行
Ctrl+Shift+Enter
在本行的上边插入一行
Ctrl+Shift+\
跳到匹配的括号
Home/end
行首或者行尾
Ctrl+home/end ...
网页解析
网页解析完成的是从下载回来的html文件中提取所需数据的方法,一般会用到的方法有:
正则表达式:将整个网页文档当成一个字符串用模糊匹配的方式来提取出有价值的数据
Beautidul Soup:一个强大的第三方插件
lxml:解析html网页或者xml网页
不同解析办法只是匹配的方式不同,按道理来说几种方法可以相互替换,正则表达式的语法就不做赘述,这里介绍一下Python中的一个库Beautidul Soup,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。
Beautiful Soup
官方中文文档
搜索过程:
根据结构化解析的方式将对html的节点按照节点的名称/属性/文字进行搜索:
Beautiful使用方法为:
首先根据html网页和解析编码方式创建一个bs对象
调用find_all或者find方法对节点进行搜索,或者使用find()返回第一个匹配结果
对于搜索到的结果
find all(name,attrs,string)其中name参数表示节点的标签名称,attr为节点的属性名称,string为节点的文字内容。
from bs4 im ...
正则表达式
速查表对应的pdf源文件
正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
特殊符号:
".“表示任意字符,”*"表示其前边的字符可以出现0次及以上
python中有一个re库用来进行在python中实现正则表达式的所有功能。
在正则表达式中,如果直接给出字符,就是精确匹配。用\d可以匹配一个数字,\w可以匹配一个字母或数字,所以:.可以匹配任意字符,所以:
'py.'可以匹配'pyc'、'pyo'、'py!'等等。
语法简介
锚点
"^“匹配输入字符串的开头位置,”$"表示匹配输入字符串的结尾字符
限定符
要匹配变长的字符,在正则表达式中,用*表示任意个字符(包括 0 个),用+表示至少一个字符,用?表示 0 个或 1 个字符,用{n}表示 n 个字符,用{n,m}表示 n-m 个字 ...
图像处理
图像处理
图像处理一般指数字图像处理,大多数依赖于软件实现。
其目的是去除干扰、噪声,将原始图像编程为适合计算机进行特征提取的形式。
图像处理主要包括图像采集、图像增强、图像复原、图像编码与压缩和图像分割。
图像采集
数字图像数据提取的方式
图像增强
为了使图像的主体结构更加明确,必须对图像进行改善。
减少噪声
改变原有图像的亮度、色彩分布、对比度等参数
提高图像的清晰度、质量
使图像中的物体轮廓更加清晰
细节更加明显
为后期的图像分析和图像理解奠定基础
图像复原
为了提取比较清晰的图像,需要对图像进行恢复。
图像恢复主要采用滤波方法。从降质的图像恢复原始图像。
图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
图像编码与压缩
为了能快速方便地在网络环境下传输图像或视频,必须对图像进行编码和压缩。
目前,图像压缩编码已形成国际标准。例如静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,处理为适用于网络传输的数码相片、彩色照片等方面。
视频可以被看作是一幅幅不同但又紧密相关的静态图像的时间序列,动态视频的单帧图像压缩可以应用 ...