博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python 文本处理的应用
阅读量:5226 次
发布时间:2019-06-14

本文共 885 字,大约阅读时间需要 2 分钟。

  最近根据公司运营部需求要对mongo数据库中的相关信息进行统计,本人一般喜欢将数据库服务器中相关的数据导出来(PS:其一由于Mongo为Nosql,在涉及关联表时不好处理,其二是因为虽然为测试环境,但是为了不影响性能的话我还是习惯将数据导出,但是缺点就是自己测试机压力比较大,不过针对于目前数据情况还是可以应付的)。

  根据createDate时间段导出的数据格式如下(已经经过处理,处理过程略过)

1 a : 5 , b: 111 , c: 52 a : 1 , b: 222 , c: 33 a : 2 , b: 333 , c: 4

   这些形式的文本信息都以行的形式存储在文本中,其中以,为分隔的每一列为在mongo数据库中根据条件提取的信息。其中a为活动id,b为参加活动的用户id,c为参加活动得分情况。

  由于要统计不同活动参加的人数,以及对应活动的得分情况,所以要对其中的每个键进行判断,统计的方法很简单,此次主要记录下本人处理判断字段的方法:

  通过type()可以判断每一行为一个str,针对这样形式的str,希望能够转换成dict来处理,本人没有试过,我是通过re模块中的split通过‘,’将其切片成list作为列表来处理,效果也是一样的,由于判断的过程中是以活动id为条件的,这样的话只能再通过二次切片,以‘:’为分隔符继续处理后再取出其中的值进行判断。

  整个统计实现的过程中用到文本操作,字符串处理,循环语句。实现起来很简单。

  以前处理文本都是用shell来实现,但是由于本人shell是半路出家,很多工具不熟悉的话根本没法想到用什么样的方法,而且个人目前感觉shell细节化的处理不够细腻,(PS:也是因为本人用的不多,其实perl的字符处理功能十分强大),所以这次就适当的将自己最近刚看的python应用起来进行锻炼下。

  实现的代码比较简单,也不好意思贴出,希望在一点一滴中继续前进,与君共勉!!!!

 

转载于:https://www.cnblogs.com/Tony-zhangl/p/4128915.html

你可能感兴趣的文章
python中数字和字符串连接的两种方法
查看>>
Centos下安装Scrapy
查看>>
HDU4725(The Shortest Path in Nya Graph)
查看>>
谈谈对Spring IOC的理解
查看>>
解决CSS垂直居中的几种方法(基于绝对定位,基于视口单位,Flexbox方法)
查看>>
结对第一次—原型设计(文献摘要热词统计)
查看>>
The 2014 ACMICPC Asia Regional Xian
查看>>
了解JavaScript核心精髓(一)
查看>>
redis的使用与 django的redis的使用
查看>>
一个漂亮灵活的PHP图片验证码
查看>>
Sql_从查询的结果集中分组后取最后有效的数据成新的结果集小记(待优化)
查看>>
vs2015未安装 Style 的 Visual Studio 语言支持
查看>>
Error creating bean with name 'itemCatController'
查看>>
[NOIP2015模拟10.22] 最小代价 解题报告 (最小生成树)
查看>>
IDEA设置注释模板最佳实践
查看>>
[NOI2016]循环之美——结论+莫比乌斯反演
查看>>
httpwatch 9.3怎么在ie 8上看不到
查看>>
VirtualBox 4.3.18 启动虚拟机时显示不能加载 R3模块并退出故障解决一例
查看>>
关于物料的分类
查看>>
easyui-textbox input输入框的一种取值方式
查看>>