Read and clean used car data
data=read.csv(file=file.choose(),header = T,na.strings = c("NA",""))
#rename:
names(data)=c("Vehicle.brand","brand","location","style","type","emission","gear","model","time","kilometres","price","original.price","hedge.ratio","group1","group2")
summary(data)
Vehicle.brand brand location
Length:2034 Length:2034 Length:2034
Class :character Class :character Class :character
Mode :character Mode :character Mode :character
style type emission
Length:2034 Length:2034 Length:2034
Class :character Class :character Class :character
Mode :character Mode :character Mode :character
gear model time
Length:2034 Length:2034 Length:2034
Class :character Class :character Class :character
Mode :character Mode :character Mode :character
kilometres price original.price hedge.ratio
Min. : 0.000 Min. : 0.90 Min. : 3.30 Min. :0.1700
1st Qu.: 3.300 1st Qu.: 6.90 1st Qu.: 14.20 1st Qu.:0.4300
Median : 5.400 Median : 12.00 Median : 22.55 Median :0.5300
Mean : 5.931 Mean : 17.27 Mean : 31.84 Mean :0.5335
3rd Qu.: 8.200 3rd Qu.: 20.00 3rd Qu.: 39.60 3rd Qu.:0.6300
Max. :17.600 Max. :155.00 Max. :358.00 Max. :0.9200
group1 group2
Length:2034 Length:2034
Class :character Class :character
Mode :character Mode :character
#Check the number of cars sold
table(data$Vehicle.brand)
DS5 GMC赛威
1 2
Jeep大切诺基 Jeep牧马人
6 4
Jeep指南者 Jeep自由客
4 1
MG6 MINI
3 16
MINICabrio MINIClubman
2 4
MINICountryman MINICoupe
4 3
MINIMini SmartFortwo
1 2
SmartFortwo Cabrio SmartFortwo Coupe
2 3
奥迪A3 奥迪A4
5 5
奥迪A4L 奥迪A5
17 1
奥迪A6L 奥迪A7
49 2
奥迪A8L 奥迪Q3
7 9
奥迪Q5 奥迪Q7
16 17
奥迪RS5 奥迪TT
1 7
宝骏乐驰 宝马1系
2 10
宝马3系 宝马4系
45 1
宝马5系 宝马6系
61 2
宝马7系 宝马X1
4 13
宝马X3 宝马X4
6 1
宝马X5 宝马X6
10 3
宝马Z4 保时捷Macan
5 1
保时捷博克斯特 保时捷卡曼
2 2
保时捷卡宴 保时捷帕纳美拉
4 3
北京E系列 奔驰A级
7 3
奔驰A级 AMG 奔驰B级
2 1
奔驰CLA级 奔驰CLK级
2 1
奔驰C级 奔驰E级
31 15
奔驰GLA级 奔驰GLK级
1 16
奔驰M级 奔驰R级
6 4
奔驰SLK级 奔驰S级
4 14
奔驰唯雅诺 奔腾X80
2 1
本田CR-V 本田CR-Z
5 2
本田奥德赛 本田锋范
2 5
本田歌诗图 本田杰德
6 4
本田思铂睿 本田思域
6 5
本田雅阁 比亚迪F0
15 2
比亚迪F3 比亚迪F6
7 2
比亚迪G3R 比亚迪L3
1 2
比亚迪S6 比亚迪S7
11 7
比亚迪思锐 标致2008
1 3
标致207-两厢 标致207-三厢
3 1
标致3008 标致307-两厢
10 2
标致307-三厢 标致308
2 3
标致408 标致508
16 11
别克GL8 别克昂科拉
23 5
别克昂科威 别克君威
1 21
别克君威GS 别克君越
3 20
别克凯越 别克林荫大道
5 1
别克威朗 别克英朗
1 8
传祺GS4 大通G10
1 1
大众CC 大众Polo
21 17
大众up! 大众宝来
2 24
大众高尔夫 大众辉腾
49 2
大众甲壳虫 大众捷达
12 10
大众朗行 大众朗逸
1 18
大众朗逸2011款 大众迈特威
1 2
大众迈腾 大众帕萨特
61 22
大众桑塔纳 大众尚酷
11 8
大众速腾 大众途安
51 17
大众途观 大众途锐
27 5
大众夏朗 道奇酷威
4 5
东风风度MX6 东风风度帅客
1 2
东风风行景逸 东风风行菱智
1 10
东风风行菱智M3 东南DX7
6 2
东南V3菱悦 菲亚特菲翔
11 1
菲亚特致悦 丰田FJ酷路泽
2 2
丰田RAV4 丰田汉兰达
10 12
丰田花冠 丰田皇冠
1 7
丰田卡罗拉 丰田凯美瑞
18 10
丰田兰德酷路泽 丰田普拉多
1 1
丰田锐志 丰田塞纳
4 2
丰田威驰 丰田雅力士
3 5
福特福克斯 福特嘉年华
54 3
福特蒙迪欧 福特猛禽
25 5
福特全顺 福特锐界
6 5
福特探险者 福特翼搏
4 5
福特翼虎 福田风景
1 3
哈弗H2 哈弗H3
2 2
哈弗H6 海马福美来二代
3 1
华普海景 华泰宝利格
2 1
华泰圣达菲 吉利GX7
2 2
吉利博瑞 吉利帝豪EC7-RV
1 2
吉利帝豪EC8 吉利英伦SC7
2 1
吉利自由舰 江淮和悦
2 1
江淮和悦IEV4 江淮和悦RS
3 2
江淮瑞风S5 江淮瑞风彩色之旅
2 2
江淮瑞风穿梭 江淮瑞风祥和
2 1
捷豹F-Type 捷豹XF
2 2
捷豹XJ 金杯大海狮L
12 1
金杯阁瑞斯 金杯海狮
3 5
金杯小海狮X30 开瑞K50
2 1
凯迪拉克ATS-L 凯迪拉克SRX
1 10
凯迪拉克XTS 凯迪拉克凯雷德 油电混合
2 1
凯迪拉克凯雷德油电混合 凯迪拉克赛威SLS
1 1
克莱斯勒300C 雷克萨斯ES
2 4
雷克萨斯GS 雷克萨斯IS
5 3
雷克萨斯NX 雷克萨斯RX
1 1
雷诺科雷傲 铃木奥拓
3 5
铃木北斗星 铃木北斗星E+
3 3
铃木吉姆尼 铃木羚羊
4 1
铃木启悦 铃木天语SX4-两厢
2 6
铃木雨燕 陆风X5
4 1
陆风X8 路虎发现4
2 4
路虎揽胜 路虎揽胜极光
8 15
路虎揽胜极光Coupe 路虎揽胜运动版
1 5
路虎神行者2代 马自达2
5 3
马自达3 马自达5
7 2
马自达6 马自达8
19 2
马自达睿翼 纳智捷大7
8 1
纳智捷大7MPV 奇瑞A3-两厢
2 2
奇瑞A5 奇瑞E3
2 2
奇瑞E5 奇瑞QQ3
2 16
奇瑞QQme 奇瑞风云2-两厢
1 2
奇瑞旗云 奇瑞瑞虎
4 6
奇瑞瑞虎5 启辰晨风
3 1
起亚K2-三厢 起亚K3
3 2
起亚K5 起亚福瑞迪
5 1
起亚锐欧 起亚赛拉图
2 2
起亚狮跑 起亚索兰托
4 2
起亚威客 起亚秀尔
1 2
起亚智跑 日产NV200
5 2
日产骊威 日产玛驰
2 3
日产帕拉丁 日产奇骏
1 14
日产骐达 日产天籁
7 13
日产逍客 日产轩逸
17 2
日产颐达 荣威350S
3 2
荣威360 荣威550
1 10
荣威750E 荣威750S
1 1
荣威W5 三菱戈蓝
1 1
三菱劲炫 三菱劲炫2011款
1 1
三菱君阁 三菱欧蓝德
1 2
三菱欧蓝德EX劲界 三菱帕杰罗
2 2
三菱翼神 绅宝
1 3
绅宝D20-两厢 绅宝D20-三厢
2 2
绅宝D50 双龙爱腾
4 1
双龙柯兰多 斯巴鲁傲虎
1 3
斯巴鲁力狮 斯巴鲁森林人
2 7
斯柯达昊锐 斯柯达晶锐
14 10
斯柯达明锐 斯柯达昕动
12 1
斯柯达野帝 威麟X5
2 1
威旺306 威旺M20
2 2
沃尔沃C30 沃尔沃S40
1 5
沃尔沃S60 沃尔沃S60L
2 2
沃尔沃S80L 沃尔沃XC60
4 5
沃尔沃XC90 五菱宏光
2 3
五菱宏光S 五菱荣光
5 2
现代ix35 现代名图
15 3
现代名驭 现代瑞纳-三厢
2 2
现代索纳塔 现代途胜
16 11
现代维拉克斯 现代新胜达
3 25
现代雅绅特 现代伊兰特
3 19
现代伊兰特-三厢 雪佛兰爱唯欧-三厢
5 2
雪佛兰景程 雪佛兰科鲁兹
5 20
雪佛兰科迈罗 雪佛兰科帕奇
1 6
雪佛兰乐风 雪佛兰迈锐宝
7 8
雪佛兰赛欧-三厢 雪铁龙C4
5 2
雪铁龙C5 雪铁龙爱丽舍
20 5
雪铁龙毕加索 雪铁龙凯旋
1 2
雪铁龙世嘉 一汽骏派D60
20 1
英菲尼迪G25-三厢 英菲尼迪JX35
6 1
英菲尼迪Q50 长安CS35
1 4
长安CS75 长安CX20
1 3
长安奔奔 长安商用金牛星
2 1
长安商用欧诺 长安商用星光4500
7 2
长安商用长安之星2 长安商用长安之星Ⅱ代
2 1
长安逸动 长安悦翔-三厢
4 1
长安悦翔V3 长城C30
3 2
长城C50 长城M2
1 3
长城M4 中华H530
5 1
中华骏捷FRV 中华尊驰
3 2
data=data[,-2]
#In addition to the top ten brands, change to other
brand_10=sort(table(data$Vehicle.brand),decreasing = T)
brand_10[1:10]
宝马5系 大众迈腾 福特福克斯 大众速腾 奥迪A6L 大众高尔夫
61 61 54 51 49 49
宝马3系 奔驰C级 大众途观 福特蒙迪欧
45 31 27 25
attach(data)
=which(Vehicle.brand!="宝马5系"& Vehicle.brand!="大众迈腾"& Vehicle.brand!="福特福克斯"
b& Vehicle.brand!="大众速腾"& Vehicle.brand!="奥迪A6L"& Vehicle.brand!="大众高尔夫"
& Vehicle.brand!="宝马3系"& Vehicle.brand!="奔驰C级"& Vehicle.brand!="大众途观"
& Vehicle.brand!="福特蒙迪欧")
detach(data)
1]=as.character(data[,1])
data[,1]="others"
data[b,1]=as.factor(data[,1])
data[,summary(data$Vehicle.brand)
others 奥迪A6L 宝马3系 宝马5系 奔驰C级 大众高尔夫
1581 49 45 61 31 49
大众迈腾 大众速腾 大众途观 福特福克斯 福特蒙迪欧
61 51 27 54 25
#location锛<9a>NAtable(data$location)
外国 中国
1783 251
#style锛<9a>NAtable(data$style)
2005款 2006款 2007款 2008款 2009款 2010款 2011款 2012款 2013款 2014款
1 8 35 111 197 262 276 364 371 257
2015款 2016款
130 22
levels(data$style)
NULL
#emission锛<9a>NAtable(data$emission)
0.8L 1.0T 1.1L 1.2L 1.2TSI 1.3L 1.3T 1.4L
4 1 2 8 1 24 1 44
1.4T 1.4TFSI 1.4TGI 1.4TSI 1.5L 1.5T 1.5TI 1.5TID
10 9 1 93 102 9 4 1
1.6E 1.6G 1.6GTDi 1.6L 1.6T 1.6TGDI 1.6THP 1.6XV
3 2 1 321 38 3 12 2
1.8L 1.8T 1.8TFSI 1.8TSI 1L 2.0L 2.0T 2.0TFSI
90 44 1 87 28 1 166 68
2.0TGI 2.0TID 2.0TSI 2.0XS 2.2L 2.2T 2.3L 2.3T
1 5 62 2 2 1 27 1
2.4i 2.4L 2.4SIDI 2.4T 2.5FSI 2.5i 2.5L 2.5S
1 108 9 1 16 5 68 3
2.5T 2.5V 2.5XS 2.5XT 2.7L 2.8FSI 2.8L 2.8T
3 1 4 1 22 4 1 3
2L 3.0SIDI 3.0T 3.0TFSI 3.0TSI 3.2L 3.4L 3.5L
256 2 54 23 5 2 1 19
3.6L 3.6T 3.7L 3.8L 3L 4.2L 4.8L 4L
12 2 3 3 81 3 2 5
5.0T 5.3L 5.7L 5L 6.0T 6.2L 6L
4 1 1 7 1 5 3
levels(data$emission)
NULL
summary(data)
Vehicle.brand location style
others :1581 Length:2034 Length:2034
宝马5系 : 61 Class :character Class :character
大众迈腾 : 61 Mode :character Mode :character
福特福克斯: 54
大众速腾 : 51
奥迪A6L : 49
(Other) : 177
type emission gear
Length:2034 Length:2034 Length:2034
Class :character Class :character Class :character
Mode :character Mode :character Mode :character
model time kilometres
Length:2034 Length:2034 Min. : 0.000
Class :character Class :character 1st Qu.: 3.300
Mode :character Mode :character Median : 5.400
Mean : 5.931
3rd Qu.: 8.200
Max. :17.600
price original.price hedge.ratio
Min. : 0.90 Min. : 3.30 Min. :0.1700
1st Qu.: 6.90 1st Qu.: 14.20 1st Qu.:0.4300
Median : 12.00 Median : 22.55 Median :0.5300
Mean : 17.27 Mean : 31.84 Mean :0.5335
3rd Qu.: 20.00 3rd Qu.: 39.60 3rd Qu.:0.6300
Max. :155.00 Max. :358.00 Max. :0.9200
group1 group2
Length:2034 Length:2034
Class :character Class :character
Mode :character Mode :character
大于或等于10万 小于10万
174 1075
#group2(emission):
table(data$group2)
低级轿车 高级轿车 中低级轿车 中高级轿车 中级轿车
132 6 443 138 530
levels(data$group2)
NULL
data=data[,-4]
summary(data)
Vehicle.brand location style
others :812 Length:1249 Length:1249
宝马5系 : 61 Class :character Class :character
大众迈腾 : 61 Mode :character Mode :character
福特福克斯: 54
奥迪A6L : 48
大众高尔夫: 47
(Other) :166
emission gear model
Length:1249 Length:1249 Length:1249
Class :character Class :character Class :character
Mode :character Mode :character Mode :character
time kilometres price
Length:1249 Min. : 0.200 Min. : 2.70
Class :character 1st Qu.: 3.600 1st Qu.: 8.50
Mode :character Median : 5.600 Median : 14.50
Mean : 6.047 Mean : 18.94
3rd Qu.: 8.200 3rd Qu.: 24.00
Max. :15.000 Max. :121.00
original.price hedge.ratio group1
Min. : 5.60 Min. :0.1800 Length:1249
1st Qu.: 16.30 1st Qu.:0.4300 Class :character
Median : 25.70 Median :0.5300 Mode :character
Mean : 35.03 Mean :0.5384
3rd Qu.: 43.90 3rd Qu.:0.6300
Max. :358.00 Max. :0.9000
group2
Length:1249
Class :character
Mode :character
#save clean锛<9a>NAwrite.csv(data,file="mydata.csv")
Text and figures are licensed under Creative Commons Attribution CC BY-NC 4.0. The figures that have been reused from other sources don't fall under this license and can be recognized by a note in their caption: "Figure from ...".
For attribution, please cite this work as
Xiaotong (2022, May 11). Data Analytics and Computational Social Science: hw_3. Retrieved from https://github.com/DACSS/dacss_course_website/posts/httprpubscomtoni901232/
BibTeX citation
@misc{xiaotong2022hw_3, author = {Xiaotong, }, title = {Data Analytics and Computational Social Science: hw_3}, url = {https://github.com/DACSS/dacss_course_website/posts/httprpubscomtoni901232/}, year = {2022} }