您现在的位置是:首页 > 养生人群 > 女性 > 数据科学,谁说女性不可以?

数据科学,谁说女性不可以?

时间:2018-07-27 19:33  来源:  阅读次数: 复制分享 我要评论

万菁,State Farm (全美最大保险与金融服务公司之一)首席数据科学家(Principle Data Scientist),美国普渡大学计算机专业博士。她在计算机视觉、深度学习、大数据处理、医学图像处理等领域有十多年的研究和从业经验。她还是科技女性运动的积极倡导者,并想用自己的故事告诉大家——数据科学这件事儿,你也可以。

达拉斯夏天炎热的天气,有时候会让万菁想起自己的故乡南昌。在美国定居并已经育有孩子的她,如今在工作的时候,还是会时不时地想起过去的事,把二十年前的自己和现在自己做一做对比。

从南昌到上海,再到达拉斯,如今已经是 State Farm 首席数据科学家(Principle Data Scientist)的万菁,回忆起过往,也常常感叹,自己与数据科学结缘的那些日子。

▍失去了分数,是一切的开始

不像很多数据科学家很小就知道了自己追求的方向,中学时代的万菁,对未来其实没有什么目标。

她是人们眼中典型的“别人家的孩子”,学习成绩优异,让父母老师放心,是被老师认为要上清华北大的“种子选手”,从小到大各种考试都是“前三名”。在万菁眼中,她想的也只是学习,“我当时太要强了,我一定要考第一名,考第二第三名我都觉得是不光荣的,没有意义。”

虽然每一门成绩都很好,但万菁其实并没有想过太多成绩背后的意义。“我喜欢什么?未来要做什么?这在当时都是没有想过的。”这位AB型血的处女座女生,强迫症式地把自己框在了成绩的怪圈里,怎么也走不出来,直到高考那决定命运的两天。

老天与她开了个玩笑。

“那是我最失败的一次考试”,万菁回忆说,“第一门没有考好,然后我的心理防线就崩塌了。”

最后成绩出来,万菁差了目标十万八千里。上清华北大是没有希望了,她最后随了父母的建议,上了南昌本地的大学。“没办法去北京了”,万菁说到。

高考的失利,反倒让她放下了自己对生活的得失心。“因为你知道一个人从一个学习的高峰,突然从云端跌落谷底时,可能就会重新审视自己的人生。”万菁觉得自己之前都太要强了,钻到了成绩的牛角尖,以至于忽略了自己内心的想法。

进入大学以后,她在课堂之外花了更多的时间,打辩论、做社团、忙活动。视野开阔后,万菁开始更多地思考自己的兴趣所在。她大学的专业是当时最火的电子工程,课程要求既需要去焊接电路板,做硬件的内容;又需要编程,做软件的活儿。

“那时候学C++编程的时候,怎么说呢....我觉得很享受,很享受这种逻辑思考、一步步写编程语言的感觉。”万菁说到。而且在这个男生居多的专业里,万菁的成绩依旧排在前列,她曾代表学校获得大学生数学建模竞赛的全国一等奖,还拿下了江西省电子创新科技竞赛二等奖等荣誉。

“大家往往认为,在逻辑性强的领域,男生普遍比女生做得好,但其实很多时候这种潜意识的看法并不正确。”在大学期间,万菁一直在专业里保持着优异的成绩,而且她越发痴迷于逻辑性强的数学建模和软件编程科学。

强调逻辑、保持严谨,多年后回想起来,万菁觉得这是她与“数据科学”产生交集的起点。虽然在考场上失掉了分数,但对万菁自己来说,其实是让她找到了未来二十年要走的方向,用她自己的话讲,“开拓了我的想法和思路”。

万菁本科毕业后,恰逢中国通讯市场的繁荣时期,电子工程专业非常吃香。她的很多同学都加入了华为、中兴、思科等大的通讯企业,拿了高薪。万菁却去江西财经大学当了一名高校老师——“因为我要考研,我一定要去更高的平台上,看看世界的样子。”

▍二维码的遗憾

经过两年的准备,万菁研究生考入了上海交通大学的模式识别与智能系统专业。

“其实这个专业就是‘数据科学’,它研究的课题主要是医学影像处理、人脸识别、指纹识别、虹膜识别等等,但是那时候我并不知道,它只是一个很小的交叉专业,我当时就是全凭兴趣。”万菁觉得这冥冥之中也有些缘分,自己歪打正着地选择了现在的大热行业。

万菁很幸运,她的研究生导师是上交图像处理与模式识别研究所时任所长施鹏飞教授。施老是国内最早研究人工智能领域的专家之一,在数字图象处理、机器人视觉、智能技术与系统等专业领域都有卓越贡献,他在1993年出版的《人工智能教程》是国内第一批 AI 教学领域的著作。

在施老的指导下,万菁开始了自己在上海的研究生生活,研究领域主要集中在图像处理、虹膜识别,以及二维码。

“我现在总说我当年错过了一个成为百万富翁的机会”,万菁笑着谈起了自己那段研究二维码的经历,颇有遗憾地感慨自己错过了一个绝佳的创业窗口。“我是中国最早几批研究二维条码的人,当年做完,发了paper就出国了,根本没有想那么多。过了几年一看,怎么满大街都是我当时研究的QR code啊,真的是错过了一个创业机会。”

随着移动支付的普及,现在大家生活中都已经很熟悉二维码了。买东西时移动支付,微信添加好友,扫一个共享单车、共享充电宝,抢一个手机红包......二维码在我们生活中如今已经无处不在了。不夸张地说,以共享经济为代表的移动互联网浪潮,就是建立在二维码这种安全、便利的编解码技术之上的。但在二十年前,这都还是镜花水月般的存在。

大家现在所熟悉的QR code,其实只是二维码的一种码制,在二维码近四十年的历史上,还出现过众多其他码制。国外早在上个世纪八十年大就开始了对二维码的研究探索,中国起步稍晚,到1993年,中国物品编码中心才对PDF417、QR code、Data Matrix等几种常见码制二维码的技术规范进行了翻译和跟踪研究。

数据科学,谁说女性不可以?

(图片说明:QR code 二维码的基本结构;图片来源:CSDN)

QR code码由日本DW公司在1994年发明。QR是英文 “Quick Response”的缩写,代表“快速反应”的意思,源自发明者希望其内容可以快速被解码的初衷。万菁研究的二维码就是QR code,她很幸用,QR code后来成为了中国的主流二维码模式。与此同时,她还有一位同学在研究另一种码制 Data Matrix,不过这些码制在后来都逐渐被淘汰,退出了二维码的主流舞台。

“那个时候,中国市场上还没有什么系统介绍 QR code 编解码内容的资料,我的任务是用C++编一套QR code的编解码系统,能对输入的文本内容编码成QR code图像,同时可对图片中的QR code解码成可读文本。”万菁花了半年的时间,经常跑到上海专利局,查阅编码的资料,最后成功实现了QR code的编解码系统(一个可交互式App),并写出了自己的研究生毕业论文。“这篇论文后来成为了国内 QR code 领域被引用次数非常多的一篇文章。”万菁自豪地说到。

虽然有点遗憾,不过某种程度上,二维码的这段插曲,其实并不是万菁在数据科学道路上的主要方向。研究生毕业后,她放弃了在上交直博的机会,来到了美国普渡大学,选择了医学影像分析方向继续深造。

▍搭上了数据时代的高速列车

博士研究阶段是万菁逐渐深入转向数据科学的关键时期。