手机浏览器扫描二维码访问
巧妇难为无米之炊,数据就是机器学习的“米”。
- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。
- 数据预处理:这步特别关键,就像淘米要去沙。包括:
- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。
- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。
- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。
2. 特征工程:给数据“化妆”,让模型看得更清楚
“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。
- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。
- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。
3. 模型训练:让机器“刷题涨本事”
选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。
- 训练过程中,得注意过拟合和欠拟合:
- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。
- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。
解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。
4. 模型评估:给机器“考试”打分
训练好的模型得测试一下准不准。常用的指标有:
- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。
“哪有摸人胸来治病的!”“美女,你试试好了吗?”“……”楚枫奉命下山,却遭未婚妻家族悔婚,孰料转身就被夏家千金许以婚书……他身怀超凡医术、盖世功法,左手掌生死,右手转阴阳,纵横花都,快意恩仇!...
巅峰仙术,横行无忌;武凌天下,败尽英雄!翻掌之间,风云变色;仙武同修,谁与争锋!宅男萧晨带着淘宝上买的,穿越到以武为尊的天武大陆,炼丹药、修符篆、布大阵、制法宝,修炼着消失千年的青龙武魂,谱写出一段波澜壮阔的热血传奇!......
穿越到修仙界的林深,经脉闭塞无法修炼,凭着自己高端生物顶尖手段完成修仙人生华丽逆转。讲述科技与修仙结合~......
在山洞里发现奇异的物体,被教授命名为“氧活体”,是因为其密度接近于氧气而得名。可这奇异的物体并没有被带回,而是选择附着在刘主君手腕,在一朝一夕之间变异成双头凤凰,是什么成为养料,是那香甜的人类啊。......
新人作者,小白文学,写自己喜欢的东西,可能写的不怎么好,接受指点,作者玻璃心,你可以不看,但要修口德,......
宴长夜是京圈名媛的朱砂痣,长得祸国殃民,让无数名媛飞蛾扑火,却是万花丛中过,片叶不沾身。宴长夜轻嘲:“长得再好,光看着顶什么用?吃到嘴里才饱腹。”谁都不知道他心里住着一个人,他觊觎她,觊觎了很久很久。姜漫漫和谢聿珩青梅竹马,互为救赎。多年后再遇,他成了高不可攀的天上月,她成了骨相魅惑的人间花,他为她走下神坛,俯首称......