全国计算机二级Python第13套-综合应用-46-问题1

 

考生文件夹下,存在2个Python源文件和1个文本文件。其中,2个Python源文件对应2个问题,文本文件
“data.txt”中包含一篇从互联网上下载的关于“德国工业4.0战略规划实施建议摘要”的文章。请分别补充2个
Python源文件,完成以下功能。
问题1:文件内容清洗。要求:在文件PY301-1.py中补充代码,对文件da.txt的内容进行清理,去除中文
标点符号,只保留中文、英文、数字、英文标点符号等字符,将结果输出到文件clean.txt中。示列如下:
德国工业4.0战略计划实施建议摘编机械工业信息研究院战略与规化研究所-德国实施工业… (略)
问题2:提取主题词及其出现频次。要求:在文件PY301-2.py中补充代码,提取clean.txt文件中长度不少于
3个字符的词语并统计词频,将词频最高的10个词语作为主题词,并将主题词及其频次输出到屏幕。示例如
下:
4.0:10,制造业.9…(略)
注意:输出格式采用英文冒号和英文逗号,标点符号前后无空格,各词语中间用逗号分隔,最后一个词
语后无逗号。

参考答案

  1.  
  2. import jieba
  3.  
  4. fi = open("data.txt","r",encoding="utf-8")
  5.  
  6. fo = open("clean.txt","w",encoding="utf-8")
  7.  
  8. data = fi.read()
  9.  
  10. #去除中文标点符号
  11.  
  12. exclude = " 、,。:()《》--?!“”‘’\n"
  13.  
  14. s = ""
  15.  
  16. for w in data:
  17.  
  18. if w not in exclude:
  19.  
  20. s += w
  21.  
  22. fo.write(s)
  23.  
  24. fi.close()
  25.  
  26. fo.close()
  27.  
历年真题

全国计算机二级Python第13套-简单应用-45

2024-4-22 10:12:25

历年真题

全国计算机二级Python第13套-综合应用-46-问题2

2024-4-22 10:18:26

个人中心
购物车
优惠劵
今日签到
搜索