• 签到
  • 竞技宝|官网之家

    苹果/安卓/wp

  • Peixun.net

    苹果/安卓/wp

  • 客户端
  • 就业指导一对一
  • 竞技宝|官网大学堂
  • 现金交易
  • 专家入驻
  • 求职招聘
  • 12关注
  • 粉丝
  • VIP管理员

    泰斗

    77%

    还不是VIP/贵宾

    -

    威望
    9
    论坛币
    986048986 个
    通用积分
    26166.6732
    学术水平
    4523 点
    热心指数
    3302 点
    信用等级
    3527 点
    经验
    569974 点
    帖子
    7960
    精华
    142
    在线时间
    14989 小时
    注册时间
    2010-3-24
    最后登录
    2020-10-28

    签到天数: 8 天

    连续签到: 1 天

    [LV.3]偶尔看看II

    初级热心勋章 初级学术勋章 中级学术勋章 中级热心勋章 初级信用勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级信用勋章 特级学术勋章

    楼主
    资料狂人 在职认证  发表于 2019-7-15 09:54:34 |只看作者 |倒序

    1月20-24日机器学习及R应用集中短训现场班

    授课方式:思想原理 + 数学精髓 + R经典案例


    讲师介绍:

    本课程由山东大学经济学院陈强教授亲授。陈强教授获得北京大学经济学学士、硕士,美国Northern Illinois University数学硕士、经济学博士,现为数量经济学博士生导师,在统计 学、计量经济学及机器学习领域具有深厚的功底,2010年入选教育部新世纪优秀人才支持计划。陈强老师著有畅销研究生教材《高级计量经济学及Stata应用》(第2版,高教社,2014),以及《机器学习及R应用》(高教社,2020,即将出版)与《机器学习及Python应用》(高教社,2020,出版)。陈强老师特别擅长深入浅出、直指人心地介绍数据 分析原理,深受广大学生们的喜爱,其现场班常常人满为患、好评如潮。


    开课信息:

    时间:2021年1月20-24日(五天)

    地点:北京市海淀区,开课前一周发送交通住宿指南

    费用:5200元/ 4500元(本科及硕士在读优惠价);食宿自理

    安排:上午9:00-12:00;下午2:00-5:00;答疑

    报名:http://www.peixun.net/main.php?mod=buy&cid=1436


    培训目的和特色:

    机器学习早期为人工智能的分支,后来也有不少统计 学家加入,最近一、二十年因为其预测精度迅速提高而走红,并在业界有着广泛的应用。可以预见,在未来三十年,几乎所有行业都会因机器学习的深刻冲击而改变。MIT名誉校长Eric Grimson曾预言,机器学习会成为像Word一样的工具。而谁先掌握此工具,则可占得先机,成为时代的弄潮儿(至少不会落伍)。


    基于机器学习的通用性,本次“机器学习及R应用”五天现场班将面向所有行业与学科的人士、老师与学生(包含竞技宝|官网社科、医学卫生等领域)。


    本课程的最大特色在于“一站式服务”,从机器学习的原理、数学推导,到R语言命令与经典案例,无不精心设计、丝丝入扣,理论联系实操,让学员们迅速理解机器学习的精髓,并掌握最为流行的数据科学软件R语言操作。


    培训内容目录:

    1机器学习引论

    (1) 什么是机器学习

    (2) 机器学习的分类与术语

    (3) 案例:垃圾邮件过滤;手写体数字识别;图像识别;自动驾驶


    2R语言快速入门

    (1) Why R?

    (2) 安装R与RStudio

    (3) R的对象(vector, matrix, data frame,list)

    (4) 面向对象的函数式语言

    (5) R语言画图


    3数学回顾

    (1) 梯度向量
    (2) 方向导数

    (3) 梯度下降

    (4) 向量微分

    (5) 最优化


    4线性回归

    (1) OLS

    (2) 过拟合与泛化能力

    (3) 偏差与方差的权衡

    (4) 交叉验证

    (5) R案例:多项式回归的过拟合;波士顿房价


    5逻辑 回归

    (1) Logit

    (2) 几率比

    (3) 灵敏度与特异度

    (4) ROC与AUC

    (5) 科恩的kappa

    (6) R案例:泰坦尼克号旅客的存活


    6多项逻辑 回归

    (1) 多项Logit

    (2) R案例:识别玻璃类别


    7判别分析

    (1) 线性判别分析(LinearDiscriminant Analysis)

    (2) 二次判别分析(QuadraticDiscriminant Analysis)

    (3) 费雪判别分析(FisherDiscriminant Analysis)

    (4) R案例:鸢尾花品种的归类


    8朴素贝叶斯

    (1) 朴素贝叶斯(Naive Bayes)

    (2) 拉普拉斯修正(LaplacianCorrection)

    (3) R案例:垃圾邮件的识别


    9惩罚回归

    (1) 高维回归的挑战

    (2) 岭回归(Ridge Regression)

    (3) 套索估计(Lasso)

    (4) 弹性网估计(Elastic Net)

    (3) R案例:前列腺癌的影响因素


    10K近邻法

    (1) 回归问题的K近邻法

    (2) 分类问题的K近邻法

    (3) R案例:摩托车撞击实验数据;模拟混合数据;威斯康辛乳腺癌的诊断


    11决策树

    (1) 分类树(Classification Tree)

    (2) 分裂准则(错分率、基尼指数、信息熵)

    (3) 成本复杂性修枝

    (4) 回归树(Regression Tree)

    (5) R案例:波士顿房价;葡萄牙银行市场营销


    12随机森林

    (1) 集成学习(Ensemble Learning)

    (2) 装袋法(Bagging)

    (3) 随机森林(Random Forest)

    (4) 变量重要性(Variable Importance)

    (5) 偏依赖图(Partial Dependence Plot)

    (6) R案例:波士顿房价;声呐信号的分类


    13提升法

    (1) 自适应提升法 (AdaBoost)

    (2) AdaBoost的统计解释

    (3) 梯度提升法 (Gradient Boosting Machine)

    (4) XGBoost

    (5) R案例:波士顿房价;过滤垃圾邮件;识别玻璃类别


    14支持向量机

    (1) 最大间隔分类器(MaximalMargin Classifier)

    (2) 软间隔分类器(Soft MarginClassifier)

    (3) 支持向量机(Support Vector Machine)

    (4) 核技巧(Kernel Trick)

    (5) 支持向量回归(SupportVector Regression)

    (6) R案例:模拟数据;过滤垃圾邮件;识别手写数字;波士顿房价


    15人工神经网络

    (1) 人工神经网络的思想

    (2) 感知机(Perceptron)

    (3)前馈神经网络(Feedforward Neural Network)

    (4) 激活函数(Activation Function)

    (5) 反向传播算法(Back-propagation Algorithm)

    (6) 随机梯度下降(Stochastic Gradient Descent)

    (7) 神经网络的过拟合与正则化

    (8) 卷积神经网络(Convolution Neural Network)

    (9) 深度学习的发展

    (10) R案例:波士顿房价;声呐信号的分类;鸢尾花品种的分类


    16非监督学习之主成分分析

    (1) 总体中的主成分分析

    (2) 样本中的主成分分析

    (3) 方差分解与降维

    (4) 主成分回归(PrincipalComponent Regression)

    (5) R案例:左右耳听力;香港回归的经济效应


    17非监督学习之聚类分析

    (1) K-均值聚类(K-meansClustering)

    (2) 分层聚类(Hierarchical Clustering)

    (3) 树状图

    (4) 基于相关系数的距离

    (5) R案例:模拟数据;鸢尾花品种的归类


    18数据科学的R语言

    (1) 何为数据科学

    (2) 管道算子(Pipe Operator)

    (3) R包tidyverse(输入数据、数据清理、数据变换)

    (4) R包ggplot2(高阶画图)

    (5) R包caret(机器学习的统一接口)

    (6) R案例:Rtidyverse的自带案例;威斯康辛乳腺癌的诊断


    不难看出,本次课程可谓干货满满、奇货可居。更难得可贵的是,主讲老师陈强教授具有丰富的教学经验、激情与魅力,是广大计量学子心目中真正的“计量男神”,尤其擅长化繁为简、直指人心,让学员们迅速上手新知识与技能。


    跟着陈强老师,五天入门机器学习,登堂入室,立竿见影,赶上时代的步伐!


    优惠:

    现场班老学员9折优惠;

    同一单位三人以上同时报名9折优惠;

    同一单位六人以上同时报名8折优惠;

    以上优惠与学生优惠价不叠加。


    报名流程:

    1:点击“http://www.peixun.net/main.php?mod=buy&cid=1436”,网上填写信息提交;

    2:给予反馈,确认报名信息;

    3:网上订单缴费(需要刷卡或对公转账的请报名后与我们联系);

    4:开课前一周发送课程电子版讲义,软件准备及交通住宿指南。


    联系方式:

    尹老师

    电话: 010-53352991

    QQ:  42884447

    邮箱: yinna@pinggu.org

    微信:yinyinan888

    尹老师微信二维码.png


    已有 1 人评分学术水平 收起 理由
    + 2
    精彩帖子

    总评分: 学术水平 + 2   查看全部评分



    stata SPSS
    沙发
    资料狂人 在职认证  发表于 2019-7-15 10:01:01 |只看作者

    Why Machine Learning: 我应该学机器学习吗?

    “机器学习”(Machine Learning)无疑越来越多地出现于媒体与我们的身边。机器学习究竟是什么?对于竞技宝|官网类或社科类的学者或学生,一个重要的问题是,“我应该学机器学习吗”?换言之,不掌握机器学习的机会成本是什么?本文就以问答的形式来回答这些问题。


    Q:什么是机器学习?

    A简单说,机器学习就是让机器(计算机)从数据中自主学习的能力。它的反面就是“硬编码”(hard coding)。假设你想写一个程序,让计算机识别正常邮件与垃圾邮件。硬编码的方法就是,由人类写下判别垃圾邮件的规则,再告诉计算机。此时,计算机并不学习,只是严格执行人类的死板分类规则。可以想象,硬编码的效果不会太好,因为虽然人类可直观地判定垃圾邮件,但并不知道自己是怎么做到的。反之,机器学习的方法则给予计算机大量的邮件,经过人类标注为垃圾邮件或正常邮件,然后让计算机找出这两类邮件的差异规律(比如常见词的不同词频),并用学到的规律(其实就是一个函数映射,即从词频到邮件类别的映射)对新邮件进行分类。


    Q:机器学习与统计学或计量经济学的主要区别是什么?

    A机器学习、统计学或计量经济学都想估计出一个从 1.png

    (向量)到 2.png 的函数映射,即 3.png 。主要区别在于,统计学与计量经济学一般更关注参数估计量 4.png ,因为它通常可用来解释对的影响(比如,对于线性回归模型,就是边际效应)。另一方面,机器学习主要关注 5.png ,其成功标准一般用预测的准确率来衡量。比如,在使用计算机识别手写体数字时,一般只关心算法的准确率,并不在乎究竟是哪些像素导致了计算机将图像归类为“5”而不是“6”。


    Q:为什么机器学习这么“火”?

    A由于机器学习专注于预测,故在业界有很多应用。特别是最近二、三十年,机器学习(包括深度学习)发展很快,预测错误率不断下降(特别在图像识别,自然语言处理领域)。一般来说,机器学习的预测错误率可能比传统的统计或计量方法低一个数量级,比如前者的错误率为1%,而后者的错误率为10%。原因之一是,传统的统计或计量经济学十分强大模型的可解释性(interpretability),故大量使用线性模型,而现实世界存在很多非线性。


    Q:既然机器学习的优势在于预测,而我作为竞技宝|官网或社科类的学者,只关心因果推断,有必要学机器学习吗?

    A事实上,因果推断的本质也是预测问题。根据鲁宾的因果模型(Rubin's Causal Model),因果效应通过“潜在结果”(potential outcome)来定义,即政策实施后的“观测结果”(observed outcome)与政策如果未实施的“反事实结果”(counterfactual outcome)之差。显然,反事实结果不可观测,只能在一定假设之下进行估计与预测。


    Q:目前机器学习在计量经济学中有哪些应用?未来的发展趋势如何?

    A迄今为止(尤其是最近十年),机器学习已经在计量经济学中掀起了两波应用的浪潮。第一波浪潮为MITChernozhukov教授等将Lasso系列的惩罚回归方法引入计量经济学,提出了post doubleselection lassoIV lassodouble machine learning等适用于因果推断的机器学习方法。第二波浪潮为StanfordSusan Athey教授等将基于决策树(tree-based)的机器学习方法引入计量经济学,提出了causal treecausal forestlocal linear forestgeneralizedrandom forest等方法(不少论文刚发表或仍为工作论文)。在可预见的将来,机器学习方法将加速融入计量经济学,成为计量经济学的重要组成部分,尤其在非参数估计与半参数估计领域。这是因为,传统的统计与计量的非参方法主要为基于核(kernel)的局部回归,很难推广到高维(因为存在维度灾难,curse ofdimensionality),而机器学习方法(比如基于决策树的随机森林、梯度提升法)在高维空间依然适用,而且预测准确率更高。


    Q:作为竞技宝|官网或社科类的学者或学生,我应该学机器学习吗?

    A在几年前,如果你知道Lasso,说明你是先进的;但现在已经很难这么说了。再过几年,如果你还不知道Lasso,则很可能说明你是落后的,因为关于Lasso的知识正在加速普及。类似地,如果你现在就知道随机森林(randomforest),说明你是先进的;……。在科研的道路上,抢占先机无疑十分重要。你的选择决定了你究竟是先知先觉,还是后知后觉……


    Q:我是文科生,能学会机器学习吗?

    A如果你学过统计学或计量经济学,应该很容易上手机器学习。在某种意义上,机器学习比计量经济学更简单。机器学习主要关心“算法”(algorithm),所用数学基本上就是最优化(optimization),一般并不使用统计学或计量经济学的那些复杂的渐近理论(asymptotics)。而且有些传统的统计与计量方法,也是机器学习的常用方法,比如OLSLogit、多项Logit等,这些你本来就会啊。


    结语:这是一个令人激动的时代。人工智能与机器学习正在深刻地改变着几乎每个行业与学科(包括计量经济学),而机器学习正是未来世界的一块重要柱石。



    回复

    使用道具 举报

    藤椅
    资料狂人 在职认证  发表于 2019-7-15 10:02:09 |只看作者
    R语言由新西兰奥克兰大学Ross和Robert开发。

    R语言是自由软件,可以放心大胆地使用,且具有非常强大的统计分析和作图功能,而且更重要的是R软件具有非常丰富的网上资源,目前R软件有3000多种贡献包,几乎可以实现所有的统计方法,目前大部分的统计学家和计量经济学家都使用R语言,而且越来越多的数据分析实务人员也开始使用R语言。

    R语言具有简单易学,功能强大,体积小(仅40m左右),完全免费,可自由开发等特点,且R语言和S语言语法基本相同,绝大部分程序是互相兼容的。学习R软件正成为一种趋势。
    R软件优美的地方是它能够修改很多前人编写的包的代码做各种你所需的事情,实际你是站在巨人的肩膀上。——Google首席经济学家Hal Varian



    R是一套完整的数据处理、计算和制图软件系统。
    其功能包括:
    1.  数据存储和处理系统;
    2.  数组运算工具(其向量、矩阵运算方面功能尤其强大);
    3.  完整连贯的统计分析工具;
    4.  优秀的统计制图功能;
    5.  简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能
    回复

    使用道具 举报

    板凳
    资料狂人 在职认证  发表于 2019-7-15 10:02:20 |只看作者
    与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。

    R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。
    回复

    使用道具 举报

    报纸
    资料狂人 在职认证  发表于 2019-7-15 10:08:02 |只看作者

    Why R?

    √ R是统计学家发明的专门用于统计计算的语言

    √ R是统计学家的母语

    √ R中的统计“包”(package)最多,且增长迅速

    √ 统计学顶级期刊的新发表论文一般带有相应的R包

    √ R是免费开源的,在学界与业界均有很多用户

    回复

    使用道具 举报

    地板
    chengganglee 发表于 2019-7-15 11:54:45 |只看作者

    回帖奖励 +2

    支持一下了
    回复

    使用道具 举报

    7
    rossrachel 发表于 2019-7-15 12:23:36 |只看作者

    回帖奖励 +2

    支持一下!
    回复

    使用道具 举报

    8
    gx666666gx888 发表于 2019-7-15 12:44:02 |只看作者

    回帖奖励 +2

    学习了。
    回复

    使用道具 举报

    9
    karst 发表于 2019-7-15 12:52:43 |只看作者

    回帖奖励 +2

    回复

    使用道具 举报

    10
    warking 发表于 2019-7-15 12:59:24 |只看作者

    回帖奖励 +2

    支持一下
    回复

    使用道具 举报

    返回列表
    发帖 回复
    您需要登录后才可以回帖 登录 | 我要注册

    京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

    GMT+8, 2020-10-28 23:12