全国计算机二级Python第13套-综合应用-46-问题2

考生文件夹下,存在2个Python源文件和1个文本文件。其中,2个Python源文件对应2个问题,文本文件
“data.txt” 中包含一篇从互联网上下载的关于“德国工业4.0战略规划实施建议摘要”的文章。请分别补充2个
Python源文件,完成以下功能。
问题1:文件内容清洗。要求:在文件PY301-1.py中补充代码,对文件da.txt的内容进行清理,去除中文
标点符号,只保留中文、英文、数字、英文标点符号等字符,将结果输出到文件clean.txt中。示列如下:
德国工业4.0战略计划实施建议摘编机械工业信息研究院战略与规化研究所-德国实施工业… (略)
问题2:提取主题词及其出现频次。要求:在文件PY301-2.py中补 充代码,提取clean.txt文 件中长度不少于
3个字符的词语并统计词频,将词频最高的10个词语作为主题词,并将主题词及其频次输出到屏幕。示例如
下:
4.0:10,制造业.9…(略)
注意:输出格式采用英文冒号和英文逗号,标点符号前后无空格,各词语中间用逗号分隔,最后一个词
语后无逗号。

参考答案

  1. import jieba
  2. fi=open("clean.txt","r",encoding='utf-8')
  3. data=fi.read()
  4. fi.close()
  5. ls=jieba.lcut(data)
  6.  
  7. d = {}##d:{'4.0': 80, '研究院': 1,... }
  8. for i in ls:
  9. if len(i)>=3:
  10. d[i]=d.get(i,0)+1
  11.  
  12. lt = list(d.items())
  13. lt.sort(key = lambda x:x[1],reverse = True)
  14. #lt:[('4.0', 80), ('CPS', 19)...]
  15. s=""
  16. for l in lt[:10]:
  17. s+="{}:{},".format(l[0],l[1])
  18.  
  19. print(s.rstrip(","))
  20.  


历年真题

全国计算机二级Python第13套-综合应用-46-问题1

2024-4-22 10:15:47

历年真题

全国计算机二级Python第14套-基本操作-41

2024-4-22 10:23:27

个人中心
购物车
优惠劵
今日签到
搜索