Full Width Blog

Nov
02

那些年,我掉过的MYSQL 的那些“坑”

假如我有一个名为midterm_score的表
存放一所学校某年级所有学生的期中考试成绩,
有班级编号(class_code),学生名称(student_name)和总分(score)共3个字段。
如果我现在想对每个班级学生的总分进行排名

By romanluo | Blog
DETAIL
Nov
02

使用文本挖掘技术分析Twitter用户对电影Rangoon的评价

使用一些建模分析手段来评价电影的成功已经屡见不鲜,这类预测模型常常使用注入电影制作成本,类型,主演,出品方等结构化数据作为输入。然而,在社交媒体日益发达的现在,人们时常会在Twitter,Facebook等网站上发表自己的意见和建议。社交媒体已然是衡量电影观众情绪的潜在工具了。

By romanluo | Blog
DETAIL
Nov
02

【深度长文科普】非NLP数据处理――词向量Word Vector

词向量 (Word Vector) 代表了人们在理解词与词,句与句,文章与文章之间关系的能力上的一大进步。与之前使用传统的表达词的方式相比,这项技术的进步在于机器可以得到更多关于词的信息。有了词向量这项技术,演讲识别和机器翻译才变得可能。在这篇文章中我会尽量用数据来解释词向量的概念,让不太熟悉自然语言处理 (NLP) 的人也能理解词向量的概念。
词向量是什么?

By romanluo | Blog
DETAIL
Nov
02

四大电子商务公司的人工智能大比拼

电子商务是零售业中较为兴盛的分支

2016年电子商务估值达1027亿美元

占美国零售业销售总额的8.3%

2016年零售业贸易总额约占美国国内生产总值的5.9

由于数字交易已成为了采购商品和服务的标准方式

行业领先的电子商务公司正在探索

如何通过运用人工智能来提升品牌竞争力

和增强客户忠诚度

By romanluo | Blog
DETAIL
Oct
26

100000个故事中的性别与动词分析:有一些很有意思的发现

受到我的同事 Julia Silge’s 最近一篇博客(what verbs tend to occur after “he” or “she” in several novels)的启发,我想用这个包含了100000个故事的数据及来分析性别和动词的关系。

我在之前的文章里探索过的Mark Riedl’s Wikipedia plots dataset很适合用来研究这个问题。这个数据集包好100000个关于电影、小说、电视剧和电视游戏的剧情。这些故事横跨几个世纪,由成百上千作者创作。但剧情介绍是由当代的观众撰写的,这意味着我们可以对这些千奇百怪的艺术形式进行统一的角色性别鉴定。由于这个数据集包含的是剧情介绍而不是原始的小说之类的,所以文本内容更多是“发生”了什么事,很少会出现某个角色“认为”或者“说”之类的表述。

By romanluo | Blog
DETAIL
Oct
26

抛弃幻想,谈谈现实中的数据科学家

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it — Dan Ariely

By romanluo | Blog
DETAIL
Oct
26

喝过五十瓶Soylent 是一番怎么样的体验?

Soylent 是一类可以替代食物的饮品,并且号称自己是可以长期替代食物,也即只喝Soylent 也不会导致营养不良等问题。

1.5版之前都是粉状物,需要自己冲泡。现在的2.0之后已经可以单独购买瓶装,直接打开就能喝。

你是每餐都喝Soylent 吗?

By romanluo | Blog
DETAIL
Oct
19

神奇动物在哪里:数据科学家和数据工程师大揭秘!

人们对于大数据和AI究竟是什么总是含糊不清并有很多困惑,“数据黑箱子”的技术性让那些分析巨大数据集的人变成了某种神秘人物。这些有着技术和意愿去分析数字并据此提供见解的人通常就被叫做:数据科学家。

By romanluo | Blog
DETAIL