字数 8360,阅读大约需 42 分钟
第6讲:给"智慧邻里"装上"大脑"
一、 上节回顾与热身
1. 上节核心回顾
同学们好!上节课我们深入学习了从"数据仓库"到"数据金矿"的精彩旅程。我带着大家回顾了我二十多年的数据管理经验,从那个让数据从"矿石"变成"黄金"的保险数据仓库项目开始,我们系统梳理了数据管理技术的演进历程。
我们重点掌握了几个核心要点:
大数据的4V特征:海量性、高速性、多样性、价值性。我用"海高速值"这个记忆口诀帮助大家记住这些特征。
数据仓库的核心技术:包括面向主题、集成、时变、非易失这四大特征,以及ETL这个数据"搬运工"的三个关键环节:抽取、转换、加载。
数据挖掘的六大任务:分类、回归、聚类、关联规则、异常检测、时间序列分析。这些都是从数据中发现"隐藏金矿"的重要工具。
批处理vs流处理:我比喻为"传统炼金术"和"连续生产线",大家理解了两种不同的数据处理模式及其适用场景。
2. 上节课后作业精讲
上节课的作业中,有几个问题值得我们一起深入讨论:
第一个热点问题:关于大数据4V特征中"价值性"的理解。有同学问"为什么价值密度低反而是大数据的特征?"这个问题问得很好!
【老孙"人话"翻译】价值密度低就像是淘金,你挖了一吨的沙子和泥土,可能只能提炼出几克黄金。大数据也是如此,处理海量的数据,可能只有很少部分包含真正有价值的信息。但正是这些少量有价值的信息,能够带来巨大的商业价值。
第二个深度问题:ETL过程中"增量抽取vs全量抽取"的选择策略。很多同学在实际项目中都会遇到这个选择困难。
【老孙划重点】选择增量抽取还是全量抽取,主要考虑三个因素:
- 1. 数据量大小:数据量大用增量,数据量小用全量
- 2. 实时性要求:要求实时用增量,可以延迟用全量
- 3. 技术复杂度:技术团队强用增量,技术团队弱用全量
第三个实践问题:如何判断一个数据挖掘项目的成功标准。这是项目管理中的关键问题。
【致用】数据挖掘项目的成功不能只看技术指标,更要看业务价值。我建议从四个维度评估:
- 1. 业务指标提升:如客户满意度提升、成本降低
- 2. 技术指标达标:如准确率、召回率满足要求
- 3. 用户接受程度:业务部门是否愿意使用
- 4. 投资回报率:投入产出比是否合理
二、 咱们今天聊点啥?(本讲目标)
今天我们要给"智慧邻里"项目装上一个真正的"大脑"------人工智能技术。这可能是整个课程中最令人兴奋的话题,因为AI正在深刻改变我们的世界。
本讲我们要达成三个核心目标:
技术理解目标:深入理解人工智能的基本概念、发展历程和核心技术,包括机器学习、深度学习、计算机视觉、自然语言处理等。
实践应用目标:掌握AI在"智慧邻里"项目中的具体应用场景,包括智能安防、智能客服、智能推荐、预测性维护等。
考试应对目标:重点掌握AI相关的考点,特别是机器学习算法、应用场景、发展趋势等高项考试的重点内容。
我要特别强调的是,今天的课程不是要培养AI算法工程师,而是要培养能够理解AI、善用AI的项目管理者。就像你不需要会造汽车,但你需要知道什么时候该用汽车、该怎么用好汽车。
三、 核心内容精讲
3.1 人工智能的前世今生
3.1.1 AI的诞生:从图灵测试到深度学习
人工智能这个词最早出现在1956年的达特茅斯会议上,但AI的思想可以追溯到更早。我给大家讲讲AI发展的几个关键时期:
孕育期(1943-1956)