请教一个关于概率和模型的问题

2020-07-28 11:30发布

假如我设计了一个线性回归模型并且有95%的置信区间。这是否意味着有95%的概率,我的模型可以预测到我拟合的模型?

假如我设计了一个线性回归模型并且有95%的置信区间。这是否意味着有95%的概率,我的模型可以预测到我拟合的模型?

2条回答
Naughty
2楼 · 2020-08-13 10:08


转自:https://www.jianshu.com/p/7b9b979f1bff


Intro


众所周知,机器学习的过程一般分两个要点,第一是“模型”,第二是“优化”。“模型”这一点很好理解,就是要找到适合用于解决手头上预测问题的模型。机器学习训练过程的核心在于“优化”。而训练(trianing)一般可以分成以下几个步骤:


定义假设空间H:即选择模型,不同的模型对应的就是不同的假设空间。

    定义损失函数:选择合适的损失函数,来衡量每次训练迭代的效果。比如MSE、LogLoss等。

    决定训练复杂度:决定用什么样的正则化,预防过拟合。

    定义优化算法:在训练迭代中,使用什么算法来得到模型参数最优解。例如梯度下降、MCMC等。

    验证结果:在测试集上使用前几步输出的模型,验证预测结果的有效性。

本文主要讨论优化算法部分最常见的三种策略:最大似然估计-MLE、最大后验概率-MAP、贝叶斯估计—Bayesian。


  1. 似然函数&贝叶斯公式

先说似然函数吧,学过概率论的同学们,看到这个公式肯定都不陌生:




但我们学的时候多半是按概率函数来理解的,但其实他也可以按似然函数来理解。作为概率函数,这个公式的含义是:B代表已知的条件,P(A|B)代表在B这个已知的条件下A发生的概率。


但对于似然函数有着完全相反的理解:B代表不同的模型参数,P(A|B)是指在不同模型参数下,固定的A发生的概率。



当然,对于似然函数来说,更常见的写法可能是,其中x是数据集中的样本点,theta是模型参数的意思。



贝叶斯公式,可能也是机器学习初学者一定要过的一关。但我在初学的时候,完全没有get到这个公式对于机器学习的意义。直到我把今天要讨论的三个优化策略放在一起对比。要理解贝叶斯公式本身,首先还是要有一点概率基础。首先贝叶斯公式形状如下:




一言以蔽之,贝叶斯定理是关于随机事件A和B的条件概率的一则定理。把公式中的四项全部拆开来看呢,分别是这样的定义:


P(A)是A的先验概率。之所以称为"先验"是因为它不考虑任何B方面的因素

    P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率

    P(B|A)是已知A发生后B的条件概率,通常称为相似度(likelihood)

    P(B)是B的先验概率或边缘概率,也作标准化常量(normalizedconstant)

转化一下之后,贝叶斯定理可以理解为:



后验概率=(相似度*先验概率)/标准化常量



本文后面讨论的三个策略,跟以上两个公式的理解,都有非常大的关系。


2.最大似然估计-MLE


最大似然估计,是三者中最简单页也最好理解的一种。直白点讲,它其实就是贝叶斯定理中“相似度”那一项P(B|A)。因此得名最大(maximum)似然(likelihood),其实就是要找到这一项的最大值所对应的模型参数。


以一个教科书式的例子来说明好了,假设我们有一枚硬币,我们不知道它是否均匀,想通过N次抛掷,然后记录正反面出现的概率来决定。于是我们对它进行了10次抛掷,最后结果是:7次正面、3次反面。如果一个人秉持最大似然估计的想法来得出这个问题的结论的话,那他的结论会是:这个硬币不均匀,正面出现的概率是0.7,反面是0.3。


但其实常识告诉我们,10次中有7次正面,其实只是运气不好。如果再抛掷10次,没准就7次反面了。所以肯定没有人会相信上面这个结论。但我们如何改进呢?抛掷更多次当然是一个选项,但在建模过程中,数据量通常是固定的,要获取更多的数据一般是不大现实的。因此,我们需要另辟蹊径。就像刚刚说到的,常识会告诉我们这个结论明显有问题。那有没有办法把这个“常识”作为一个因子引入到我们的模型里呢?当然可以,它其实就是“先验概率”。这就引出了下面要讨论的“最大后验概率”。


3.最大后验概率-MAP


最大似然估计是求参数theta,使似然函数P(x|theta)最大。最大后验概率估计则是想求theta使P(x|theta)P(theta)最大。求得的theta不单单让似然函数大,theta自己出现的先验概率也得大。在贝叶斯公式中:P(theta|x)=P((x|theta)*P(theta)/P(x),由于P(x)是已知的观测结果,所以可以理解为是常量,在上面的例子中也就是正面0.7这个概率值。因此求theta使P(x|theta)P(theta)最大,就是求theta使P(theta|x)最大。而P(theta|x)就是后验概率,也是这个策略名称的由来。


那么,如果我们先验地知道,正面概率更接近0.5这件事情,那其实最终得出的后验概率,肯定介于似然估计的0.7与先验概率的0.5之间。因此,可以看出引入了先验概率之后,我们的模型能够更接近真相。


如果再更深入的思考一下,其实MLE和MAP是有关联的,如果P(theta)=1,其实MAP就是MLE。或者反过来看,当数据观测趋于无穷大时,似然估计本身提供的信息将远超于先验概率提供的信息,这时MLE和MAP也是基本一样的。


4.贝叶斯估计-Bayesian


现在让我们回想一下上面的MLE与MAP。我们会发现,这两个策略的最终目的,都是找到一个最好的描述当前数据观测的模型。他们其实都属于“频率论(frequentist)”的思路。但“贝叶斯思想”是与频率论完全背道而驰的一种观点。贝叶斯估计的过程中,不会试图去寻找一个最佳的模型,而是得出所有参数可能性的重要性分布。当我们对新的样本预测的时候,就会让所有的模型一起去预测,但每个模型会有自己的权重(权重就是学出来的分布)。最终的决策由所有的估计根据其权重做出决策。是类似于ensemble的做法。


上面的解释可以说肯定一遍是看不懂了,在这篇博文中有个非常好的例子,盗用一下。


假设你有一个学术问题想要解决的时候,你可以联系到一个清华大学的班级,班里的同学可以帮助你去解决这个问题。这时候,你会怎么样利用这些学生来解决这个问题呢?我们可以分别用今天讨论的三个策略来套用到这个场景中。很显然,这个班级就是你的假设空间,班级中每个人都可能的一个模型实例。


最大似然估计的approach


按MLE的原理,你需要从系里选出过往成绩最好的学生,并让他去解答这个难题。比如我们可以选择过去三次考试中成绩最优秀的学生。




mle_1.png


挑选出这些学生之后,就直接让他们去解决问题并给出结果了。其他的学生我们就当不存在。。。




mle_2.png


这是一个很好的approach吗?是很简单,但明显很sloppy。万一这些学生只是考试厉害,实际的问题解决能力并不强呢?这个时候,请教一下他们的班主任、老师对他们的评价,也纳入到你的考虑中岂不是更好。这就是最大后验概率估计。


最大后验概率的approach


老师的评价作为先验概率,加入到我们的考虑中,对同学的选择当然会产生影响。




map_1.png




map_2.png


贝叶斯估计的approach


贝叶斯估计的方法,是让所有人都去参与回答张三的难题,但最后我们通过一些加权平均的方式获得最终的答案。这里你不是简单地选出几个同学,而是给每一个同学分配一个权值。权值的分布(PosteriorDistribution)是怎么得出的呢?一些著名的算法如MCMC,VariationalMethod等等。


Summary


MLE(最大似然估计):就是给定一个模型的参数,然后试着最大化likelihood。即给定参数的情况下,得到样本集的概率。目标是找到使前面概率最大的参数。逻辑回归都是基于MLE做的;但缺点是不会把我们的先验知识加入模型中。

    MAP(最大后验估计):最大化后验概率。

    Bayesian:预测是考虑了所有可能的参数,即所有的参数空间。


作者:uglybachelor

链接:https://www.jianshu.com/p/7b9b979f1bff

来源:简书

简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。


it小哥哥
3楼 · 2021-01-08 09:26


Java简历与面试

置顶2017年10月20日10:04:29

阅读数:40142

Java就业指导

  想要成为合格的Java程序员或工程师到底需要具备哪些专业技能,面试者在面试之前到底需要准备哪些东西呢?本文陈列的这些内容既可以作为个人简历中的内容,也可以作为面试的时候跟面试官聊的东西,你可以把这些内容写到你的简历中,当然更需要的是你在面试的时候向面试官展示这些专业技能。相信此文对正在寻觅Java程序员(Java工程师)职位的freshman以及希望成为中高级Java开发者的junior都会有所帮助。

专业技能

熟练的使用Java语言进行面向对象程序设计,有良好的编程习惯,熟悉常用的JavaAPI,包括集合框架、多线程(并发编程)、I/O(NIO)、Socket、JDBC、XML、反射等。熟悉基于JSP和Servlet的JavaWeb开发,对Servlet和JSP的工作原理和生命周期有深入了解,熟练的使用JSTL和EL编写无脚本动态页面,有使用监听器、过滤器等Web组件以及MVC架构模式进行JavaWeb项目开发的经验。对Spring的IoC容器和AOP原理有深入了解,熟练的运用Spring框架管理各种Web组件及其依赖关系,熟练的使用Spring进行事务、日志、安全性等的管理,有使用SpringMVC作为表示层技术以及使用Spring提供的持久化支持进行Web项目开发的经验,熟悉Spring对其他框架的整合。熟练的使用Hibernate、MyBatis等ORM框架,熟悉Hibernate和MyBatis的核心API,对Hibernate的关联映射、继承映射、组件映射、缓存机制、事务管理以及性能调优等有深入的理解。熟练的使用HTML、CSS和JavaScript进行Web前端开发,熟悉jQuery和Bootstrap,对Ajax技术在Web项目中的应用有深入理解,有使用前端MVC框架(AngularJS)和JavaScript模板引擎(HandleBars)进行项目开发的经验。熟悉常用的关系型数据库产品(MySQL、Oracle),熟练的使用SQL和PL/SQL进行数据库编程。熟悉面向对象的设计原则,对GoF设计模式和企业应用架构模式有深入的了解和实际开发的相关经验,熟练的使用UML进行面向对象的分析和设计,有TDD(测试驱动开发)和DDD(领域驱动设计)的经验。熟悉Apache、NginX、Tomcat、WildFly、Weblogic等Web服务器和应用服务器的使用,熟悉多种服务器整合、集群和负载均衡的配置。熟练的使用产品原型工具Axure,熟练的使用设计建模工具PowerDesigner和EnterpriseArchitect,熟练的使用Java开发环境Eclipse和IntelliJ,熟练的使用前端开发环境WebStorm,熟练的使用软件版本控制工具SVN和Git,熟练的使用项目构建和管理工具Maven和Gradle。


说明:上面罗列的这些东西并不是每一项你都要烂熟于心,根据企业招聘的具体要求可以做相应的有针对性的准备。我个人觉得前6项应该是最低要求,是作为一个Java开发者必须要具备的专业技能。


项目经验

项目介绍

  本系统是X委托Y开发的用于Z的系统,系统包括A、B、C、D等模块。系统使用了Java企业级开发的开源框架E以及前端技术F。表示层运用了G架构,使用H作为视图I作为控制器并实现了REST风格的请求;业务逻辑层运用了J模式,并通过K实现事务、日志和安全性等功能,通过L实现缓存服务;持久层使用了M封装CRUD操作,底层使用N实现数据存取。整个项目采用了P开发模型。


说明:上面的描述中,E通常指Spring(Java企业级开发的一站式选择);F最有可能是jQuery库及其插件或者是Bootstrap框架,当然如果要构建单页应用(SPA)最佳的方案是前端MVC框架(如AngularJS)和JavaScript模板引擎(如HandleBars);G显然是MVC(模型-视图-控制),最有可能的实现框架是SpringMVC,除此之外还有Struts2、JSF以及Apache为JSF提供的MyFaces实现,可以使用JSP作为MVC中的V,也可使用模板引擎(如Freemarker和Velocity)来生成视图,还可以是各种文档或报表(如Excel和PDF等),而Servlet和自定义的控制器是MVC中的C,当然SpringMVC中提供了作为前端控制器的DispatcherServlet;J通常是事务脚本,K应该是AOP(面向切面编程)技术,L目前广泛使用的有memcached和Redis;M的选择方案很多,最有可能的是Hibernate和MyBatis,也可以两种技术同时运用,但通常是将增删改交给Hibernate来处理,而复杂的查询则由MyBatis完成,此外TopLink、jOOQ也是优秀的持久层解决方案;底层的数据存取传统上是使用关系型数据库,可以是MySQL、Oracle、SQLServer、DB2等,随着大数据时代的来临,也可以采用NoSQL(如MongoDB、MemBase、BigTable等)和其他大数据存取方案(如GFS、HDFS等);项目的开发模型P可以是瀑布模型、快速原型模型、增量模型、螺旋模型、喷泉模型、RAD模型等。


项目开发流程

可行性分析>>>可行性分析报告/项目开发计划书需求分析>>>需求规格说明书 

OOAD(用例图、时序图、活动图)界面原型:帮助理解需求、业务层设计时推导事务脚本设计>>>概要设计说明书/详细设计说明书 

抽取业务实体(领域对象):类图、E-R图(概念设计阶段)分层架构:确定各层的技术实现方案(具体到使用的框架、数据库服务器、应用服务器等)。业务层设计:事务脚本模式(事务:用户发送一次请求就是一个事务;脚本:一个方法或一个函数;事务脚本:把一次请求封装为一个方法或一个函数;事务脚本模式:一个事务开始于脚本的打开,终止于脚本的关闭)。业务层涉及的对象有三种类型:事务脚本类(封装了业务的流程)、数据访问对象(DAO,封装了持久化操作)、数据传输对象(DTO,封装了失血/贫血领域对象),三者之间的关系是事务脚本类组合(聚合)数据访问对象,这二者都依赖了数据传输对象正向工程(UML类图生成Java代码)和逆向工程(Java代码生成UML类图)数据库物理设计(ER图转换成表间关系图、建库和建表、使用工具插入测试数据)编码测试>>>测试报告/缺陷报告 

单元测试:对软件中的最小可测试单元进行检查和验证,在Java中是对类中的方法进行测试,可以使用JUnit工具来实施。集成测试:集成测试也叫组装测试或联合测试。在单元测试的基础上,将所有模块按照设计要求组装成为子系统进行测试。系统测试:将已经确认的软件、硬件、外设、网络等元素结合在一起,进行信息系统的各种组装测试和确认测试,系统测试是针对整个产品系统进行的测试,目的是验证系统是否满足了需求规格的定义,找出与需求规格不符或与之矛盾的地方,从而提出更加完善的方案。验收测试:在软件产品完成了单元测试、集成测试和系统测试之后,产品发布之前所进行的软件测试活动。它是技术测试的最后一个阶段,也称为交付测试。验收测试的目的是确保软件准备就绪,并且可以让最终用户将其用于执行软件的既定功能和任务。交付和维护>>>用户手册/操作手册

项目管理

版本控制:CVS/SVN/Git自动构建:Ant/Maven/Ivy/Gradle持续集成:Hudson/Jenkins

系统架构

负载均衡服务器:F5、A10应用服务器: 

HTTP服务器:Apache、NginX(HTTP、反向代理、邮件代理服务器)Servlet容器:Tomcat、ResinEJB容器:WildFly(JBossApplicationServer)、GlassFish、Weblogic、Websphere数据库服务器:MySQL、Oracle

第三方工具(插件)应用

图表工具:基于jQuery的图表插件(如jQchart、Flot、Charted等)、Chart.js、Highcharts等。报表工具:PentahoReporting、iReport、DynamicReports等。文档处理:POI、iText等。工作流引擎:jBPM、OpenWFE、Snaker、SWAMP等。作业调度:Quartz、JobServer、Oddjob等。缓存服务:EhCache、memcached、SwarmCache等。消息队列:Open-MQ、ZeroMQ等。安全框架:Shiro、PicketBox等。搜索引擎:IndexTank、Lucene、ElasticSearch等。Ajax框架:jQuery、ExtJS、DWR等。UI插件:EasyUI、MiniUI等。富文本框:UEditor、CKEditor等。

面试提问

项目是为哪个公司开发的?项目的投入是多少?有多少人参与了项目开发?整个团队中,测试人员、开发人员、项目经理比例是多少?项目开发了多长时间?项目总的代码量有多少?你的代码量有多少?项目采用了怎样的开发模型或开发流程?项目的架构是怎样的?项目的技术选型是怎样的?你在项目中承担了怎样的职责?是否经常开会或加班?项目完成后有哪些收获或是经验教训?项目中最困难的部分是什么?如何解决团队开发时遇到的各种冲突?


说明:对于没有实际项目经验的,可以在前程无忧、智联招聘、拉勾网等网站上搜索招聘Java程序员的公司,找到他们的官方网站了解他们做的项目,查看项目的详细介绍,然后尝试完成其中一部分功能,最好请教一下高人看看自己的设计和代码是否恰当,这样相当于积累了一定的项目经验。


面试题

  Java常见的面试题已经总结成《Java面试题集》、《Java面试题全集》以及《面试编程题拾遗》等文章陆续发布在我的博客,各大公司的面试题我会继续整理发布。

其他

常见错误

只在计算机上练习不做行为面试题演练不做模拟面试训练试图死记硬背答案不大声说出你的解题思路代码不够严谨不写测试代码轻言放弃

面试时可以反问面试官的问题

我注意到你们使用了X技术,请问你们是如何解决Y问题的?为什么你们的产品使用了X技术而不是Y技术?据我所知,X技术虽然有A、B、C等好处,但也存在D和E问题,而Y技术可以解决D和E问题。我对您说的X技术不是太熟悉,但我感觉它是一个不错的解决方案,您能多讲讲它的工作原理吗?你们团队是如何进行项目规划的?一周会有几次例会?每周的代码量大概是多少?就X问题我能想到的解决方案目前就只有Y了,请问您会怎么解决这个问题?

S.A.R.法则

  S.A.R法则是指先描述问题的场景,然后解释你采取的行动,最后陈述结果。

算法题的五种解法

举例法:通过举例子发现其中的一般规则。


例子:圆内接三角形是锐角三角形的概率是多少?这是搜狗的一个面试题,可以在圆上随意画三个点连接成三角形就可以知道答案了。

模式匹配法


例子:一个有序数组的元素经过循环移动,元素的顺序变成”345612”。怎样找到数组中最小的那个元素,假设数组中的元素各不相同。这个题目和折半查找看起来是那么相似,因此可以借鉴折半查找的算法,最小元素显然出现在”mid>right”的转折点。

简化推广法


说明:简化问题规模和数据类型,然后再发现通用的解法。

简单构造法


例子:找出”abcde”的所有可能的排列组合。先考虑只有”a”的情况,再考虑”ab”的情况,以此类推。最终你可能会得到一个递归公式。这种方法往往会演变成递归法。

数据结构头脑风暴法


例子:随机生成一些数字,并找出其中位数。这种问题可以在头脑中将你了解的数据结构过一遍,看看哪种是最合适的数据结构。上面的题目可以建立两个堆,一个大根堆和一个小根堆,较小的元素放在大根堆,较大的元素放在小根堆,如果两个堆不平衡,可以从其中一个堆取出元素放入另一个堆即可。最后中位数应该是两个堆的根之一。


录用谈判

要理直气壮的提出具体的待遇要求开出比预期稍高的价码不要只盯着薪水(很多公司更愿意就薪水之外的条件做出让步)使用最合适的方法(可以尝试在电话或E-mail中谈判待遇)

自我评价

学习能力(搞IT行业的人需要不断的了解新的技术、工具和方法)团队意识(相比个人英雄主义,IT行业更倡导团队合作)抗压能力(很多IT企业的工作强度相对来说还是比较大的)

文章转自:http://blog.csdn.net/jackfrued/article/details/45035097

 

https://blog.csdn.net/love_java_cc/article/details/78292347?locationNum=7&fps=1


相关问题推荐

  • 回答 20

    选对培训机构比较重要,还有就是选择的时候看一下自己适合哪种风格的讲课方式,这个也很重要。因为现在5G时代来临,人工智能绝对是一个发展的大趋势,如果你自己空余时间又比较多的话,其实可以报一个辅导班,学习学习一些基本的东西,毕竟多学点总是没有坏处...

  • 回答 3

    深度学习是近几年人工智能领域的主要研究方向。深度学习的主要任务是通过构建深度卷积神经网络(Deep Neural Network,DNN)和采用大量样本数据作为输入,人们最终会得到一个具有强大分析能力和识别能力的模型,该模型包含了DNN的构成参数以应用于实际工作。...

  • 回答 3

    AI深度学习课程是用于建立、模拟人脑进行分析学习的神经网络,并模仿人脑的机制来解释数据的一种机器学习技术,主要应用于图像识别、语音识别、自然语言处理等领域。学完可以从事深度学习工程师、机器学习工程师、人工智能工程师、高级算法工程师、高级算法工...

  • 回答 16

    算法,数据相关的适合做人工智能

  • 回答 28

    人工智能取代的行业,一定有如下几个特征:1、大量重复型。2、逻辑性比较强。3、数据库依赖型。像司机,咨询,教育,医生,会计,律师助理,工程师,码农等,都是容易被取代的行业。当然,这都是强人工智能以后会发生的事,现在还是弱人工智能的时代,想进入...

  • 回答 9

    如果你是自己学着玩,提升自己的话,高中毕业都可以。如果是冲着AI算法岗或者科研一席之地,至少211硕士。具体可以亲身体验一下今年算法岗秋招。

  • 回答 9

    可以,未来的人工智能发展深度学习必然是现在大型机器生产科研必备的,证书的话某个培训好像有这个中科院的证书,具体你去百度吧

  • 回答 8

    我觉得就是人工智能的课程,现在家具都是智能家居了。这一块发展一定很好

  • 回答 3

    对于sgd算法而言,batch size太大太小都不好,太小的话训练不稳定,计算效率低;太大的话收敛速度慢,需要仔细调节一下。以2的倍数调节,例如32,64,128等

  • 回答 1

    在terminal中输入$wolf@wolf:~/Downloads/gitclonehttps://github.com/Tencent/ncnn cd切换到NCNN目录***这步很重要,这时候需要修改ncnn的root目录下的CMakeLists.txt文件,需要将倒数几行的add_subdirectory(examples),取消注释,这样就是默认编译example...

  • 回答 5

    人工智能的话其实到现在来说已经慢慢趋于成熟,学的话首先是一线城市,学出来好就业,还有就是薪资也高

  • 回答 3

    画个train and test error VS 训练数据量(training set size) 的learningcurve应该会更加直观了。可以找个简单的数据集,比如说handwritten digits或者什么的,分别用神经网络和决策树或者knn做出这个learningcurve。你会看到如果用一个决策树去解决这个问题...

  • 回答 2

    共生矩阵用两个位置的象素的联合概率密度来定义,它不仅反映亮度的分布特性,也反映具有同样亮度或接近亮度的象素之间的位置分布特性,是有关图象亮度变化的二阶统计特征。它是定义一组纹理特征的基础。     一幅图象的灰度共生矩阵能反映出图象灰度关于...

没有解决我的问题,去提问