机器学习与数据挖掘

对非专业人士讲专业的知识,就像对牛弹琴,所以最简单的就是举例说明。如何向小白介绍何谓机器学习和数据挖掘?

跟他讲一个买芒果的故事

嘴馋的你想吃芒果了,于是你走到水果摊,挑了几个让老板过过秤,然后你再根据芒果的斤两付钱走人。

显然,买芒果你当然是挑着最甜、最熟的来买(因为你是根据重量而不是质量来掏钱的)。怎么个挑法才靠谱呢?

对了,你奶奶说过,金黄色的要比浅黄的更甜些。于是你就做了一个简单的规定:只挑金黄色的买,过磅、付钱、回家。就这么简单?

不尽然。

生活没那么简单

拎着芒果回到了家,尝了尝,你发现有些很对口味,有些则马马虎虎。显然,光凭你奶奶的智慧还是有所不足的。挑芒果不能只看颜色。

一番细品,再一番苦想之后,你得出了结论:那些大个儿的、金黄色的芒果一定是甜的,而那些小个儿的、金黄的就只有一半是甜的了。(比如,你买了100个黄灿灿的芒果,50个个头较大,50个个头一般,那么个头大的那50个就都是甜的,个头小的50个当中就平均只有25个是甜的了。)

你对自己的研究发现甚感满意,想着下次买芒果的时候能更靠谱些。终于你又来到了水果市场,发现你最常去的那个水果摊已经见不着踪影了。于是你就找了另一个摊档,而他们的芒果又产自不同的地方。你挠挠头,叹了口气:得了,“大个、金黄色的果子甜”的经验在这又不适用了,一切从头开始。尝了一遍后,你发现那些小个的、浅黄的芒果是当中最甜的。

你的表妹大老远的来看你,你决定给她整些美味的芒果尝尝。但她并不在乎果子甜不甜,而只关心是不是鲜嫩多汁。好吧,你又挠挠头,在果摊尝了一遍,发现越软的越多汁。

这次,你到了另一个国度。这儿的芒果味道与家乡的截然不同:绿色的竟然要比黄色的味道更棒。

你结了婚,发现她对芒果完全不感冒,而对苹果很是喜欢。这回,你又跑去买苹果去了。你又得学神农“遍尝百果”,摸索苹果的物理特征和味道之间都有怎样的联系——为了她,又有什么不可以的呢?满满的都是爱呀。

写段电脑程序来帮忙

为什么不用电脑程序来帮你挑芒果(或苹果)呢?你把规则写了出来:

if (color is bright yellow and size is big and sold by favorite vendor): mango is sweet.

if (soft): mango is juicy.

etc.

这就是你挑芒果用到的规则了。把它发给你的弟弟,想必他也能帮你买到对你口味的芒果。

但问题在于,每回你在试验之后得出了观察结果,你都得把规则做一番修正。你还得明察秋毫地了解清楚都有那些因素在影响芒果的品质。如果问题复杂起来的话,你在上面耗费的心血甚至都有可能为你拿个“芒果科学”的PhD下来(如果有的话)。

但这样的大闲人还真的不多。

写个机器学习算法吧

机器学习算法是普通算法的进化版,它们让你的程序变得“更聪明”,能从你提供的数据里自动学到东西。

你在市场上随机选择了某个品种的芒果(training data),把每个芒果的物理特征都写进了一个表格——颜色、大小、形状、产地、所属果摊等(features),甜度、多汁程度、成熟度(output variables)也做了记录。你把这些数据都放进了一个机器学习算法(classification/regression),然后这个算法就会自动从芒果的物理特征和品质之间得出一个相关性模型。

等到下一回你到市场的时候,你把在售的芒果的特征信息都收集起来,再扔进你的机器学习算法,它就会利用之前计算出来的模型来预测哪些芒果是甜的、熟的、以及/或多汁的了。该算法可能会使用和你曾经手写的差不多的规则,也有可能使用的规则会更有相关性,不管怎样,在很大程度上你都不用操太多心了。

现在,算法在手,你就可以挺直身板去买芒果去了。更重要的是,你的算法还能继续演进(reinforcement learning),读取更多的训练数据,准确率也更高,每预测错误后再进行自我修正。更妙的是,你还能用同一个算法来训练不同的模型,预测预测苹果、橙子、香蕉、葡萄、樱桃、西瓜什么的。

机器学习:让你的算法聪明起来,这样你就可以少动脑了。

讲完这些故事,一般人基本也就懂了。

机器学习与数据挖掘图1
机器学习与数据挖掘图2
机器学习与数据挖掘图3

你有一些相关的数据,安排人手工把想要的结果做出来,交给机器。以后,你再有新的相关数据,机器就能把结果算出来了;不需要你知道具体的数量关系,更不需要你告诉机器具体有怎样的关系。
这就是机器学习。

数据挖掘,就是从数据里找到有用的信息。其实是另一个角度了,更应用一点,可以有各种实现技术。
机器学习,让你从新的原始数据里,得到你感兴趣的结果,也可以认为是一种挖掘。
此外,自动聚类,就是把相关数据给机器,他就能帮你找到哪些有相关关系。但是,需要人去解读,到底有没有因果关系,或者说有怎么样的关系。
各种统计计算,也可以认为是挖掘。也需要人去解读,这些数字到底代表什么意义。

我曾经给一个非计算机专业的理科生这样解释过,他表示有概念了。希望对你也有用。

原创文章,作者:普尔小编,如若转载,请注明出处:http://www.puerpx.cn/pxwd/2024.html

(0)
上一篇 2022-05-21 上午9:10
下一篇 2022-05-21 上午9:22

相关推荐

  • 北京月嫂机构排行榜

      “月嫂”是月子里专门保养孕妇与新生婴儿的一类热门职业.她们关键工作任务为生完孩子6-8周的孕妇同新生宝宝开展日常生活的保养.   月嫂工作任务主要是照顾小宝宝和孕妇:新生儿护理…

    培训问答 2022-06-18
  • 催奶培训,催乳师培训内容有哪些

    有这么一群人,看到你奶水少不得不混合喂养或者喂奶粉,总想着是不是有好的办法帮你调理身体,让宝宝多喝些母乳;有这么一群人,你哺乳期堵奶,不管是刮风下雨,一个电话,就赶紧跑去帮忙疏通乳…

    培训问答 2022-07-22
  • 电话销售高手平时都是怎么打电话的呢,怎么自己那么难开单

    虽然我们每天都会被无数的骚推销电话干扰,卖房的,卖保险的,小额贷款的。可我仍保持良好的态度,因为我觉得电话销售是所有销售行业里最基础,也是最难的。更因为我的第一份工作,就是做电话销…

    培训问答 2022-05-25
  • 郑州ui培训机构,郑州ui设计培训哪家好

    全国大大小小的培训机构,应该说随便一数也有几百家吧,名气非常大那种也少少有几十家;而学校目前几乎是没有UI设计专业的,有也极少,因为UI设计目前在行业而言,还算是一个初生的职业,还…

    培训问答 2022-05-26
  • 高空作业证

    高空作业证,由国家安全生产监督管理局统一制作,各省级安全生产监督管理部门、煤矿安全监察机构负责签发。特种作业操作证在全国通用。特种作业操作证不得伪造、涂改抄、转借或转让。特种作业人…

    培训问答 2022-05-23
  • 贵阳会计培训:贵阳哪个会计培训班好

    在贵阳的话,我是觉得选择全国连锁的会计培训班会比较好一点,或者是能够去会计师事务所,能够全方位的学习会计的全盘知识的地方都可以,因为我个人不在贵阳,所以说我只能推荐其他我所了解的,…

    培训问答 2022-04-17
  • 比较好的画室,杭州有名的画室有哪些

    大画室会有着完整的体系和强劲的师资,但是学生体量大,高手云集,老师能照顾到每一位学生吗?小的画室学美术氛围好,老师相对负责能管得过来,但是它的质量、成绩有保证吗? 第一名、老鹰画室…

    2022-05-18
  • 今年大三,本科学的编导,喜欢意大利电影,想去意大利留学,但是父母不同意怎么办

    。 拥有梦想是一件幸福的事情,但同时也要随时准备向现实低头。 题主学的编导想要去意大利学习,而父母不是十分赞同,这是个典型的梦想与现实的冲突,也是父母和子女对于未来不同看法的冲突。…

    2022-05-26
  • 电工培训

    电焊工培训班 焊接技术就是高温或高压条件下,使用焊接材料(焊条或焊丝)将两块或两块以上的母材(待焊接的工件)连接成一个整体的操作方法。职业发展方向:技术方向:汽车焊接专家、汽车焊接…

    培训问答 2022-06-18
  • 邯郸培训,邯郸小吃培训速成班

    邯郸小吃培训哪家好?细数小吃培训机构真不少,一个邯郸市就有上十家小吃培训机构,这就给创业者带来了选择上的困难,不知道去谁家好,有的便宜、有的说的自己很厉害、有的吹嘘自己的技术,那么…

    培训问答 2022-05-29

发表回复

您的电子邮箱地址不会被公开。