全国计算机二级Python第13套-综合应用-46-问题1

 

考生文件夹下,存在2个Python源文件和1个文本文件。其中,2个Python源文件对应2个问题,文本文件
“data.txt”中包含一篇从互联网上下载的关于“德国工业4.0战略规划实施建议摘要”的文章。请分别补充2个
Python源文件,完成以下功能。
问题1:文件内容清洗。要求:在文件PY301-1.py中补充代码,对文件da.txt的内容进行清理,去除中文
标点符号,只保留中文、英文、数字、英文标点符号等字符,将结果输出到文件clean.txt中。示列如下:
德国工业4.0战略计划实施建议摘编机械工业信息研究院战略与规化研究所-德国实施工业… (略)
问题2:提取主题词及其出现频次。要求:在文件PY301-2.py中补充代码,提取clean.txt文件中长度不少于
3个字符的词语并统计词频,将词频最高的10个词语作为主题词,并将主题词及其频次输出到屏幕。示例如
下:
4.0:10,制造业.9…(略)
注意:输出格式采用英文冒号和英文逗号,标点符号前后无空格,各词语中间用逗号分隔,最后一个词
语后无逗号。

参考答案


import jieba

fi = open("data.txt","r",encoding="utf-8")

fo = open("clean.txt","w",encoding="utf-8")

data = fi.read()

#去除中文标点符号

exclude = " 、,。:()《》--?!“”‘’\n"

s = ""

for w in data:

if w not in exclude:

s += w

fo.write(s)

fi.close()

fo.close()

历年真题

全国计算机二级Python第13套-简单应用-45

2024-4-22 10:12:25

历年真题

全国计算机二级Python第13套-综合应用-46-问题2

2024-4-22 10:18:26

个人中心
购物车
优惠劵
今日签到
搜索