数据给AI“供能”的背后,还有这些关键问题

大白话聊透人工智能 巴蜀魔幻侠 加书签

天才一秒记住【232小说网】地址:232xs.com

咱们前面聊了数据是ai的“粮食”,没数据ai就玩不转,但光有粮食还不够——就像咱们做饭得考虑米新不新鲜、会不会浪费,ai用数据也得解决“数据从哪儿来”“数据干不干净”“能不能随便用”这些问题。要是这些问题没处理好,就算有再多数据,ai也可能“吃坏肚子”,甚至闯祸。接下来咱们就接着唠,看看数据给ai“供能”的背后,还有哪些不得不说的关键事儿。

一、数据从哪儿来?ai的“粮食”不是天上掉的

很多人可能觉得“ai用的数据,随便找一找就有”,但其实不是——要收集到足够多、足够相关的数据,可不是件容易事儿,得靠不同的“渠道”去“找米”,而且每个渠道都有自己的门道。

最常见的一种渠道,是咱们“主动给的”。比如你用社交软件发朋友圈、发评论,用购物app下单、收藏商品,用导航软件查路线、记常用地址,这些行为都会产生数据,而平台会把这些数据收集起来,用来训练ai。就像你在外卖平台点了几次奶茶,平台收集到“你爱喝三分糖、去冰的奶茶”这个数据,ai就能给你推荐同类型的新品;你在短视频app上总给宠物视频点赞,平台收集到这个数据,ai就会多推宠物内容给你。这些数据都是咱们在使用软件时,不知不觉“贡献”出去的,也是ai数据的重要来源。

还有一种渠道,是“专业团队专门采的”。比如要做一个能识别农作物病虫害的ai,光靠用户上传的照片不够——得有农业领域的团队,去田间地头拍不同作物(小麦、水稻、玉米)、不同病虫害(蚜虫、白粉病、锈病)的照片,而且得拍清楚病变部位、不同发病阶段的样子,还得标注好“这是小麦蚜虫病”“这是水稻白粉病”。这种数据专业性强,要求高,不能随便凑数,得花大量时间和人力去采集。之前有个做医疗ai的团队,为了训练ai识别肺癌,花了3年时间,从全国几十家医院收集了十几万张肺部ct影像,还得让医生一张张标注“这是良性结节”“这是早期肺癌”,可见多不容易。

另外,还有“公开数据集”可以用。行业里有些机构会整理好数据,免费或低价开放给大家用,比如咱们之前提到的image,还有用于自然语言处理的“中文维基百科数据集”、用于语音识别的“n

voice数据集”。这些数据集就像“公共粮仓”,ai开发者不用自己从头收集,能省不少事。但这类数据集也有缺点——可能不够“贴合具体需求”,比如公开的语音数据集大多是标准普通话,要是想做一个针对某地方言的语音ai,还得自己额外收集方言数据。

总之,ai的“粮食”不是天上掉的,要么是咱们用户在使用中“贡献”的,要么是专业团队辛苦采集的,要么是从公开渠道获取后再加工的。每一份数据背后,都有不少人力和时间的投入。

二、数据得“干净”:不然ai会“学歪”

咱们做饭的时候,米要是有虫、有石子,得先淘干净才能煮,不然煮出来的饭没法吃;ai用数据也一样,得先把数据“洗干净”,要是数据里有错误、有杂质,ai学了之后就会“学歪”,做事情出错。

啥是“不干净”的数据?比如数据里有“错误标注”——本来是猫的图片,却标成了狗;本来是“用户不喜欢吃辣”的记录,却标成了“喜欢吃辣”。ai学了这些错数据,就会跟着犯错:看到猫的图片,会当成狗认;给不喜欢吃辣的用户,推荐超辣的火锅。

还有一种是“重复数据”——比如同一张猫的图片,在数据集中出现了100次。ai学的时候,会反复学这张图,误以为“猫就长这样”,等遇到其他样子的猫(比如无毛猫、三花猫),就认不出来了。这就像咱们学认字,要是只反复写同一个字的一种写法,遇到行书、草书的写法,就不认识了。

还有“偏见数据”,这个更麻烦。比如要做一个“招聘ai”,用来筛选简历,结果收集的数据里,大部分“优秀员工”的简历都是男性,女性简历很少,而且标注的时候,还把“女性”和“不适合加班”“不稳定”这些标签绑在一起。ai学了这种数据,就会产生“偏见”,筛选简历时会优先选男性,甚至直接把女性简历筛掉,这就造成了性别歧视,肯定是不行的。

之前国外就发生过这样的事:某公司用ai筛选求职者,结果发现ai对女性求职者很不友好,后来查原因,才发现训练数据里,过去十年录用的员工中男性占比很高,数据本身就有偏见,ai自然就“学歪”了。最后公司只能停用这个ai,重新清理数据。

所以,数据收集来之后,必须得“清洗”:先把重复的数据删掉,再把错误标注的数据改对,最后还要检查有没有偏见,尽量让数据更公平、更准确。这一步就像咱们做饭前淘洗米、挑拣菜,虽然麻烦,但必不可少——只有“干净”的数据,才能让ai学好,做事情不出错、不跑偏。

三、数据不能随便用:得保护“个人隐私”

咱们前面说,很多数据是用户“贡献”的,比如聊天记录、购物记录、定位信息,这些数据里藏着咱们的“个人隐私”——要是随便用,很可能会泄露隐私,比如有人用ai分析你的聊天记录,知道你家里的情况;用你的定位数据,知道你每天去哪儿、住在哪儿。所以,ai用数据的时候,必须得守规矩,保护好个人隐私,不能“乱用粮食”。

现在行业里有个很重要的原则,叫“数据匿名化”——就是把数据里能识别出“你是谁”的信息去掉。比如你的外卖订单数据,会把你的真实姓名、手机号、详细住址换成一串代码,只留下“某用户在某天点了一份麻辣烫”这样的信息。这样ai能学到“有人喜欢吃麻辣烫”,却不知道这个人是你,就不会泄露你的隐私。

更多内容加载中...请稍候...

本站只支持手机浏览器访问,若您看到此段落,代表章节内容加载失败,请关闭浏览器的阅读模式、畅读模式、小说模式,以及关闭广告屏蔽功能,或复制网址到其他浏览器阅读!

《大白话聊透人工智能》转载请注明来源:232小说网232xs.com,若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

温馨提示:按 Enter⤶ 返回目录,按 阅读上一页, 按 阅读下一页,加入书签方便您下次阅读。
大白话聊透人工智能》所有内容均来自互联网或网友上传,232小说网只为原作者巴蜀魔幻侠的小说《大白话聊透人工智能》进行宣传。欢迎各位书友支持巴蜀魔幻侠并收藏《大白话聊透人工智能》最新章节。
梦起之幻想乡

关于梦起之幻想乡:(前十章文笔暂未固定,写的较差,推荐跳过或大致浏览。因作者能力不足,本作品不完全依照原作时间线和原作剧情)这只是一个普通人,进入幻想乡之后,所发生的事情。我希望,它是美好的。我希望,我能写好。纯粹,单一的幻想乡同人。希望够甜吧,我不太喜欢,也不太会写刀子,索性不写刀子了。净土上,唯一的变化,就是多了个叫“杨栉”的家伙。他会无力,会尝试,会拼尽全力去改变一些事物。就这样,这就是这本

栉YNA 连载 85万字

放下傲娇朱砂痣,我选宝藏白月光

深爱不行,相爱才行。躺在病床上奄奄一息的顾一凡用了整整一辈子的时间才明白这个道理!一场车祸意外,顾一凡以为自己就要完蛋了…………睁开眼,却发现上千学生正齐刷刷的盯着自己。誓师大会?向青梅竹马校花表白被抓?全校检讨?顾一凡发现...

六月不归 连载 23万字

娇妻太磨人

喜欢的男人有女朋友了,怎么破?她衷心的祝福他们天长地久。喜欢的男人分手了,怎么破?她绝对第一时间送上温暖的安慰。喜欢的男人受打击了,怎么破?她绝对立刻送上亲切的问候。可如果,她一不小心把自己送上了床,还不小心怀孕了,这可要怎么办?...

安北陌 连载 125万字

军婚甜宠,穿书知青被兵痞宠爆了

关于军婚甜宠,穿书知青被兵痞宠爆了:阮妤穿到了一本刚看过的未完结的年代文里,成了书中与她同名同姓第一章就被冻死在山林中的可怜小炮灰。只不过她落地的时间地点有些微妙,冰雪,山洞,篝火,还有睁眼就对上的胸膛八块腹肌男!还……还有贴来的唇?!接收了原主记忆的阮妤开始绞尽脑汁的思考该如何改变自己这糟心的炮灰开局,却不想身边的糙汉兵哥哥突然从身后一把揽住她的腰:“嫁我,如何?”美色当前,色令智昏的阮妤摸了摸

锦鲤绘扇 连载 125万字

绛色大宋

业务经理韩绛空难来到南宋,被人救起。他看着慈眉善目的“救命恩人”韩老头,相信所有命运的馈赠,早就在暗地里标好了价格《绛色大宋》是晨风天堂精心创作的历史穿越小说。

晨风天堂 全本 224万字

在时光里聆听巴蜀回响

本散文集带你穿梭于巴蜀大地的烟火人间。从热闹书场的醒木声,到神秘图语的千年谜题,以灵动文字勾勒巴蜀风情,让你领略巴蜀文明的独特魅力与深厚底蕴。...《在时光里聆听巴蜀回响》小说推荐:魔道祖师、家有娇妻芙宁娜、龙族之重临旧日、敛财人生、果郡王重生后,甄嬛无敌了、祁煜:若爱短暂,而遗忘漫长、轻点罚!乖软哼哼哭包,他知错了、南锣鼓巷四合院、重生1983:从夺回家产开始、【综】降谷零今天吃醋了吗、斗罗:悟

巴蜀魔幻侠 其他 连载