Archive for the 'Chinese' Category

You are currently browsing the archives for the Chinese category.

气泡图击败Data Snoop

转自:泡网
Data Snoop, 民科的神奇直线(google 始作俑者):

气泡图,数据击败Data Snoop:

R tip:
n=20;plot(rnorm(n),rnorm(n),cex=sqrt(abs(rnorm(n)))*10,pch=1,col=1:n);

R: str(…) 与 getS3method(…,…)

感谢R专家XIE Yihui同学在线答疑

me: 请教两个R的技术:1.R中有没有对象浏览器之类的工具?一举看完一个对象的子子孙孙 2.怎么看深入的源代码> prcomp
function (x, …)
UseMethod(”prcomp”)
<environment: namespace:stats>
Yihui: 1. str()是很常用的一个函数,它可以充分查看对象的子子孙孙 2. 很多函数要么是S3 method,要么是调用C code,所以一般不能直接看源代码
S3 method可以用getS3method()去查看,比如prcomp就是S3方法,那么可以看它的default方法是什么:
> getS3method(’prcomp’,'default’)
function (x, retx = TRUE, center = TRUE, scale. = FALSE, tol = NULL,
…)
{
x <- as.matrix(x)
x <- scale(x, center = center, scale = scale.)
cen <- attr(x, “scaled:center”)
sc <- attr(x, “scaled:scale”)
if (any(sc == 0))
stop(”cannot rescale a constant/zero […]

愉快地发现SciTE和LyX在WinXP下都支持中文

愉快地发现我在WinXP上最常用的编辑工具SciTE(当前版本1.75) 和 LyX(当前版本1.5.3) 都支持unicode(也就是说,支持中文)。之前不了解,只因为缺省设置不支持中文。需要手工操作修改设置。
SciTE的设置是Options->Open Global Options File,编辑SciTEGlobal.properties,找到如下段落
# Unicode
#code.page=65001
code.page=0
#character.set=204
# Required for Unicode to work on GTK+:
#LC_CTYPE=en_US.UTF-8
#output.code.page=65001
修改为
# Unicode
code.page=65001
#code.page=0
character.set=204
# Required for Unicode to work on GTK+:
LC_CTYPE=en_US.UTF-8
output.code.page=65001
保存。然后关闭再打开SciTE,就会发现不再出现中文被切一半的现象。如果编辑的文档格式不是utf-8而是ucs-2 ,还可以在File->Encoding 里临时选。
[update] 除了utf-8, SciTE 还支持国内更常用的GBK码,设置如下:
code.page=936
output.code.page=936
character.set=134
此外,我还推荐把SciTEGlobal.properties文件中的line.margin.visible=1 和 wrap=1 两处的注释#号去掉,效果是缺省显示行号,并使超长的行折行显示。SciTE的优点太多了–开源免费;轻巧,启动快;支持Ctrl+鼠标中轮滚动无级缩放;支持Ctrl+回车 前文已出现过的拼写自动补齐选项;支持Alt键方形选段;…
LyX(版本>=1.5.1)在winXP已经可以在.lyx文件正文和公式框中录入中文。麻烦的是输出中文的pdf。[update]在LyX1.6.0下,需要在菜单Layout->Document->Language->选Chinese(simplified),并勾选 Use language’s default encoding设为English + GBK encoding组合(发现Language选项只影响F7拼写检查,而Encoding只影响pdf/dvi生成;还可以点Save as Document Defaults设为今后的缺省)。我试了若干方案,最后才试成功用南开网站上的MiKTeX+中文插件(Patches4miktex.exe),实现了输出正文的中文为pdf,美中不足是公式框中还不能实现中文公式输出pdf,甚至在Document中的中文设置选定后,公式框中的中文都不能在LyX环境中正确显示,期待后续的LyX版本处理好这个问题[update]公式框中的中文只需要再ctrl-M一次即可。例如,\frac{\mbox{分子}}{\mbox{分母}}可以输出,而\frac{分子}{分母}不行。
新版本LyX已经引入了文档版本控制,相当于word中的revision功能,有待深入试用。目前LyX仍不支持Ctrl+鼠标中轮滚动无级缩放,如果公式显得太小,需要在菜单设置中修改显示缩放比例:Tools->Preferences->Look and feel->Screen fonts->Zoom %。这可能是比较容易在后续版本中实现的功能。
相关网址:
SciTE主页 http://www.scintilla.org/SciTE.html
LyX主页 http://lyx.org/
南开MiKTeX中文插件 http://miktex.math.nankai.edu.cn/
我为Wordpress / Wordpress MU 系列平台制作的支持暗背景LaTeX小插件 http://lixiaoxu.lxxm.com/latex_math_cgi

自由度的几何:对截距项投影残差向量的长度平方

这是《相关系数的几何:对截距投影的残差向量之间交角余弦》示意图,恰好可以用于解释为什么满足的分布df是n-1而不是n。
其中且 是n维空间中的标准正态随机向量。那么,容易知道有。这个表达式就是向量长度的平方。我们已经知道,就是在截距向量(日晷指针)上的投影。自然,就是对截距项投影残差向量,也就是在日晷盘上的投影。
日晷所处空间的n是3。如果我们对抽样许多次,就会看到三维空间中各个方向对称的标准正态分布散点图。这些散点图在日晷盘上的投影就是二维空间标准正态分布散点图。日晷盘中这些点对应向量的长度平方自然是的抽样。

习题:一类错误的注水

一个研究者每次都先看一下计算出的统计量再决定对零假设做单尾检验还是双尾检验。如果统计量,就设对立假设为;如果统计量,就设对立假设为。假如他的请问他真实的一类错误率是多少?具体说,有许多次的实验,真实情形都是,他能检验出显著拒绝的比例会趋近于多少?

读汪丁丁《为中国股民找一个理由》所想到与读到

汪文注明首发《IT经理世界》,我读于CCER新闻。特别摘出部分:
…当代中国人生活在千年未有之变局之内,经历着三重转型同时发生的阶段,所以,每一中国人的未来,充满着奈特意义上的不确定性。这种不确定性是不可预期且不可重复的,当代实验经济学家称之为“ambiguity”,以区分于“risk(风险)”。
股票市场固然风险很高,可是,我们综观股市之外的种种生活,风险何尝不高呢?与其走出股市得一人生之幻灭,为何不走入股市搏一幻灭之人生?或者,用经济学的术语再说一遍:股市之外的高风险人生,却并不带来相应的高回报。大众纷纷进入股市,是因为他们知道在那里承担风险至少有带来相应回报的可能性。也就是说,与其终生储蓄在银行里并希望渺茫地预期不断上涨的养老、医疗、住房、教育和日常生活的费用不至于完全侵蚀了他们微不足道的储蓄,不如以这微不足道的储蓄充当投资股市的本钱,反而是更富理性的选择。

这涉及到我备课过程中原先没意识到也许密切关联的两个论题。第一是奈特/Knight(1921)的可测度的Risk和不可测度的Uncertainty的区分。汪文第二段中的“风险”显然是Uncertainty而不是Risk。有意思的是,不可测度的Uncertainty却是可比较高低的(这不是汪的创见,而是Knight原著的意见)。用心理计量学术语,Uncertainty不是scale变量,但却是ordinal变量,而且很可能还是连续的ordinal变量。
Knight原著并不易读。甚至只是翻查《新帕尔格雷夫经济学大辞典》1987版1996中译本的Uncertainty和Knight辞条,就已经令人云里雾里。其中Knight辞条执笔者是G. J. Stigler,他对Knight在Uncertainty上的“贡献”略有微词。Knight原著第7章注解1也小心的指出他打算规避认识论/知识论的讨论。这给我的感觉就好比:讨论一个被定义为“本质上不可讨论的对象”的对象。须知Uncertainty在Knight原著中唯一的内涵就是不可测度,于是所有对它的减少(eliminate)都是对它的否定。一旦比较它有多么地“不可测度”,就是在否定“不可测度”的本质。从罗素悖论的经验,我实在怀疑“不可测度性”程度的比较注定要引出悖论。
这便引出与之相联系的第二个论题:“主观概率”。在Uncertainty辞条中Knight的角色只是一笔带过,而主观概率才是更实质的关键词。似乎很根本的一个问题是:如果我们“完全地、本质地”不知道一个随机分布,在何种程度上能或者不能建立起一个有普遍意义的主观概率分布?–也许读懂辞条后,初学者的问题会自然消解。

Knight, F. H. (1921). Risk, Uncertainty, and Profit. Boston, MA: Hart, Schaffner & Marx.

答:有同学认为不应该浪费时间教三遍p值和置信区间

如果确实大部分同学认真跟着我学三遍后还不能明白区间估计的假设检验,我承认是我教学上的失败。然而我不介意讲第四遍第五遍(实际上,在结构方程部分,、方程结构和S的关系我至少重复了五遍。但是五遍都能听懂,一定胜过三遍还没听懂?)假如有同学有兴趣,欢迎贡献一个问卷调查有多少人终于弄懂区间估计和假设检验,还没有弄懂的同学中有多少同学仍然有足够的兴趣企图花时间去弄懂。做在线问卷只需要动机,不需要写代码的能力。我很希望有更多同学去实践在线问卷这项重要的技能。
到底教什么是重要的,我的判断没有改变。我仍确信选讲p值、区间估计符合我对大家学术倾向的最初预期。倾向学术还是倾向职场,对每位同学无所谓对错。要错就是我最初的预期错。现在确实有同学认为,不搞懂p值、power、区间估计照样可以安心作学术,照样可以面对海量的报告p值的文献,照样可以在自己的学术作品中每篇都报告p值。对这一类同学,我以为这是把学术当作普通谋生行业。我要编量表宁可划这类同学为职场倾向。但如果有同学对p、CI这类貌似非应用的学术问题感兴趣(当然有),我认为太有必要在北大的研究生课程里占用足够的正课时间。这是我的公开立场。
同样,我也相信大家对于什么东西是重要的自有度量。但这并不意味着我的课程需要符合多数同学目前的偏好。我相信许多同学考入北大,是为了有一个机会让北大改变自己的偏好(或品味?),而不是相反。
至于上课提点考试题目的噱头,建议对此有意见的同学把它正确地理解为我的一种调侃方式,而不是我对考题的允诺或背书。同时建议对此调侃方式不能接受的同学,错误地把它理解为我对试题的某种程度的提示,我尽量弄假成真促成喜剧。
最后,我很清楚以上这些颇为偏激的意见显然不适合作为一个comment跟在任何一个同学的学习笔记之后。因为每一位在学习笔记中花费时间陈述课程意见的同学,他们是在为课程作自己的一份义工。义工身后,多的是搭便车的沉默群众。甚至我的comment本身,更多时是基于我对原贴的片面误读而不是全面的解读,因为原贴全篇超过60%的篇幅在正面肯定我的课程教学。显然,我的这篇答复意见已经完全不针对原贴和发表原贴的那位同学,所以我决定把这个回复贴在自己的教学笔记,并欢迎所有同学匿名或者不匿名评论。

相关系数的几何:对截距投影的残差向量之间交角余弦

一直马虎地以为两个列向量的内积就是它们所代表变量的相关系数,结果今天在学生面前出了一回丑,企图让一列常数和另一个列向量的相关系数接近1。大家都知道,一列常数和任何一个列向量的相关系数必定为零。
我的错误在于忘记了协方差表达式中,列向量作内积之前有一步中心化:减去全列的均值。被减去的实际上是一个向量,等于全列均值乘以向量,也就是在截距向量、也就是“对角线”轴方向上的投影。减去这个投影,是没有任何解释变量、只有截距项时的回归残差,这个残差向量和截距方向垂直,所以落在垂直于“对角线”截距向量(日晷指针)的线性子空间里(日晷盘)。协方差实际上是这样的两个残差向量内积,而相关系数就是两残差向量之间的夹角Cosine值。

惊喜:wordpress.com缺省支持latex

本来还打算全部转移到yo2.cnhttp://lixiaoxu.lxxm.com,现在不用了:)
试一下效果


有位同学反馈看我的 lixiaoxu.wordpress.com 很久不出公式的图片。另一位不在深圳的同学干脆连看都看不到。从这种情况看来,使用wordpress.com的同学很可能都是费了牛劲才把笔记贴上去 的,要上传什么文件更艰难。我暂不在境内,没有体验到这么痛苦的连国外网速,给大家作了不恰当的推荐,非常抱歉。
为了方便境内的访问,我的学习笔记转移到了lixiaoxu.yo2.cn这里
yo2.cn如果要显示公式需要在后台启用安装插件。大家可以看我启用后的效果,用先写公式然后copy的。
lxxm.com基于wordpress mu平台,可以定制缺省启用的插件。这个wordpress mu插件基于John Forkosh的mimetex cgi。

回复:关于“伪小数定律”的脚注2

之所以贴为主贴是因为baidu博客报告回复超长,不允许发。原帖子见deadwind学习笔记博客。

这篇文献(Tversky & Kahneman, 1971)我只是大致概览,但发在science的那篇综述也说到了这类问题(Tversky & Kahneman, 1974)。代表性的偏见被他们认为是本能。对比有限理性的其它心理学研究,我猜想代表性的偏见是由人类现实的思维方式决定,而统计的估计基于无限理性的理想假设。
我感觉读文献引发思考有两大类。有一类属于技术层面的问题:这个文献通过什么实验设计支持一个什么样的idea,作者如何有这个idea而别人却没有。这类问题关注文献的思路与科研技巧,学习到的东西比较实在,容易取得学术共识。另一类思考关注文献的研究对象和思考论题本身,以及相关联的各种背景。这类思考能对文献的阅读提供很强的兴奋感激励,也容易激起讨论气氛,不过学习到的东西不够实在和直接。我上面的猜想属于第二类的问题。抽象地说,第一类问题是认识论问题,第二类问题是宇宙论问题。在认识论问题上,有可能进行说服——用听者的逻辑和立场去说服听者;而宇宙论问题,太容易变成说教–用讲者的逻辑和立场去说服听者。
言归正传,解释脚注(在pdf原文里是脚注2):20个样本,z值是2.23,.05一类错误双尾z检验显著了;如果再新抽10次样本,问卷请研究者主观估计这十个样本0.05一类错误的单尾z检验显著的可能性。
因为是z检验,所以总体的标准差已知。因为这个问题和计量尺度没有关系,变换尺度,就能让。只有均值被检验。按频率学派的观点,不给定就不能知道检验显著的(频率学派)概率(Gigerenzer, Krauss, & Vitouch, 2004)。但研究者必须回答一个主观的可能性。有一类研究者就会把这个主观的可能性等同于某种中立情况下的频率学派概率,他们把这种中立情况选为的真值恰好是第一次20个样本对的无偏估计值。
用Excel计算,第一次无偏估计值的绝对值;我们的问题和的正负方向无关,不妨认为第一次估计值为正数。单尾.05的z值=NORMINV(1-0.05,0,1)。十个样本单尾显著的判决区域是:十个样本的均值/对应的标准差真值 >NORMINV(0.95,0,1)。十个样本均值是个统计量,这个统计量的分布方差真值是 ,标准差真值则是,这个统计量分布的均值真值就是。
P(十个样本的均值 >(1/SQRT(10))*NORMINV(0.95,0,1) | 真值=,十个样本的均值抽样分布标准差真值=,用Excel算=1-NORMDIST(NORMINV(1-0.05,0,1)/sqrt(10),2.23/SQRT(20),1/sqrt(10),TRUE)
从这个脚注的案例,可以体味一下所谓的Power Analysis对真分布的知识的依赖,而在标准的频率学派框架里,真分布是永远不知道的,连真分布满足某种特定范围的概率也不知道。Gigerenzer, Krauss, & Vitouch的Chapter(2004)值得细读,打算列为第二次(一共十六次)课的必读文献。

Gigerenzer, G., Krauss, S., & Vitouch, O., (2004). The null ritual: What you always wanted to know about significance testing but were afraid to ask. In D. Kaplan, (ed.), The Sage handbook of quantitative methodology for […]