数据表示方法之Json和Xml

Web Service的行业发展趋势是从XML转向JSON。由于JSON足够简单,能够直接映射到编程语言已有的原生数据结构,JSON的使用让解析与数据抽取变得更简单。但是,XML比JSON在自我描述方面更强,因此在某些应用程序中XML仍然有一定优势。

XML节点循环

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
import xml.etree.ElementTree as ET
input = "'
<stuff>
<users>
<user x="2">
<id>001</id>
<name>Chuck</name>
</user>
<user x="7">
<id>009</id>
<name>Brent</name>
</user>
</users>
</stuff>"'
stuff = ET.fromstring(input)
lst = stuff.findall('users/user')
print 'User count:', len(lst)
for item in lst:
print 'Name', item.find('name').text
print 'Id', item.find('id').text
print 'Attribute', item.get('x')

Xpath

介绍

Xpath是一门语言,专门用于解析xml和html
Xpath相比于正则表达式更简易好,正则表达式是告诉计算机寻找特定样子的字符串,而xpath
是直接告诉计算机寻找某个节点

配合requests库使用,requests库相比于urllib2更人性化


基本使用

安装lxml库
from lxml import etree
selector = etree.Html
seletor.xpath(规则)

import sys
reload(sys)
sys.setdefaultencodeing(‘utf-8’)


## 规则的获取

chrome 选择元素然后copyxpath

  • // 定位根节点
  • / 往下寻找
  • 提取文本内容:/text()
  • 提取属性内容:/@xxxx

//url[@id=’useful’]/li/text()
//div/url[@id=’useful’]/li/text()
//a/@href
//div[starts-with(@id,’test’)]/text()


## 多线程
map函数一手包办了序列操作,参数传递和结果保存等一系操作
from multiprocessing.dummy import Pool
pool=Pool(你的cpu核数) # 生产线程池
result=pool.map(爬虫函数,网址序列)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
from mutiprocssing.dummy import Pool as ThreaPoll
import requests
import time
def getsource(url)
html=requests.get(url)
url=[]
for i in range(1,21):
newpage='http://tieba.com/p/35223957?pn'+str(i)
urla.append(newpage)
tie1=tme.time()
for i in urls:
print i
getsource(i)
print u'单线程时间' +str(time2-time1)
poo1=ThreadPool(5)
time3=time.time()
results=pool.mao(getsource,urls)
pool.close()
pool.join()
tiem4=time.time()
print '并行时间'+str(time4-time3)

数据搜索和筛选之正则表达式

正则表达式

正则表达式库在使用之前必须先导入到程序中。正则表达式库最简单的用法是search()函数。搜索函数的简单用法如下程序所示:

1
2
3
4
5
6
import re
hand = open('mbox-short.txt')
for line in hand:
line = line.rstrip()
if re.search('From:', line) :
print line

打开文件,循环每一行,使用正则表达式的search()函数,打印出包含字符串”From:”的文本行。这个程序其实并没有发挥正则表达式的真正实力,line.find()函数可以更容易地实现相同的结果。

正则表达式的强大之处体现于,可以在搜索字符串中添加特定字符,以实现更精确的字符串文本行的匹配控制。通过在正则表达式中添加特定字符,编写很少代码就可以实现复杂的匹配与抽取。

例如,正则表达式的^符号匹配一行的开始。我们修改一下上面的程序,仅匹配“From:”开头的文本行。

1
2
3
4
5
6
import re
hand = open('mbox-short.txt')
for line in hand:
line = line.rstrip()
if re.search('^From:', line) :
print line

好了,这就做到仅匹配“From:”开头的文本行。这仍然是一个非常简单的例子,字符串库的startswith()函数同样可以实现。之所以这样讲解,目的是介绍正则表达式的理念,包含特定行动字符,给予文本匹配更多的控制。<

Ubuntu(Debian)的aptitude与apt-get的区别和联系


域名解析
[_posts] nslookup 1:09:34 ☁ master ☂ ⚡ ✭

www.baidu.com
Server: 127.0.1.1
Address: 127.0.1.1#53

Non-authoritative answer:
www.baidu.com canonical name = www.a.shifen.com.
Name: www.a.shifen.com
Address: 111.13.100.91
Name: www.a.shifen.com
Address: 111.13.100.92


wget –random-wait -r -p -e robots=off -U Mozilla www.baidu.com
递归下载整个网站


export PATH=$PATH:/usr/local/go/bin(把原来的PATH变量内容,添加上新的内容,然后在赋值个PATH)

export 是导出的意思,就父进程可以传给子进程的变量,即环境变量


免去登录密码
首先在设置里的用户账号里设置,
然后取百度搜索去除密码环

搜索文件

find /home myfavourite1 | grep myfavourite

递归改变权限
chmod 777 × -R

echo sometext > somefile 覆盖
echo sometext >> somefile 追加

复制文件夹
cp -r ~/Downloads/resource .

管道符号是从左到右
想要从右到左可以使用

例如命令 Google cat data.json

grep 的使用,显示查找内容的上下文
标准unix/linux下的grep通过以下参数控制上下文

grep -C 5 foo file 显示file文件中匹配foo字串那行以及上下5行
grep -B 5 foo file 显示foo及前5行
grep -A 5 foo file 显示foo及后5行
查看grep版本的方法是

grep -V

按文件修改时间查看文件
ls -t
ls -rt

Linux中变量#,#,@,0,0,1,2,2,*,$$,$?的含义

$# 是传给脚本的参数个数
$0 是脚本本身的名字
$1 是传递给该shell脚本的第一个参数
$2 是传递给该shell脚本的第二个参数
$@ 是传给脚本的所有参数的列表
$ 是以一个单字符串显示所有向脚本传递的参数,与位置变量不同,参数可超过9个
$$ 是脚本运行的当前进程ID号
$? 是显示最后命令的退出状态,0表示没有错误,其他表示有错误
区别:@@

相同点:都是引用所有参数
不同点:只有在双引号中体现出来。假设在脚本运行时写了三个参数(分别存储在112 3)则”3)则”*” 等价于 “112 3”(传递了一个参数);而“3”(传递了一个参数);而“@” 等价于 “1””1””2” “$3”(传递了三个参数)

应用:

——-

#mkdir + cd
mkcd () {
mkdir -p “$@”
cd “$@”
}

——-
参考
http://www.cnblogs.com/kaituorensheng/p/4002697.html


bash函数有三种写法:

[plain] view plain copy print?
function func1 () {
echo “This is an example of bash function 1”
}

function func2 {
echo “This is an example of bash function 2”
}

func3 () {
echo “This is an example of bash function 3”
}

但是,第一种写法在有的 bash版本下会报错。


deb 安装

GDebi第三方工具

Ubuntu(Debian)的aptitude与apt-get的区别和联系

转载于 http://www.cnblogs.com/yuxc/archive/2012/08/02/2620003.html

Ubuntu(Debian)的aptitude与apt-get的区别和联系

最近在使用Puppet快速部署Openstack,看到一些没见过的工具,例如aptitude,在Ubuntu上有强大的apt-get为什么还要用这个呢。本文转自:http://hi.baidu.com/52safe/blog/item/c17891ff02201653d6887d96.html

  起初GNU/Linux系统中只有.tar.gz。用户 必须自己编译他们想使用的每一个程序。在Debian出现之後,人们认为有必要在系统 中添加一种机 制用来管理 安装在计算机上的软件包。人们将这套系统称为dpkg。至此着名的‘package’首次在GNU/Linux上出现。不久之後红帽子也开始着 手建立自己的包管理系统 ‘rpm’。

GNU/Linux的创造者们很快又陷入了新的窘境。他们希望通过一种快捷、实用而且高效的方式来安装软件包。这些软件包可以自动处理相互之间 的依赖关系,并且在升级过程中维护他们的配置文件 。Debian又一次充当了开路先锋的角色。她首创了APT(Advanced Packaging Tool)。这一工具後来被Conectiva 移植到红帽子系统中用于对rpm包的管理。在其他一些发行版中我们也能看到她的身影。

“同时,apt是一个很完整和先进的软件包管理程序,使用它可以让你,又简单,又准确的找到你要的的软件包, 并且安装或卸载都很简洁。 它还可以让你的所有软件都更新到最新状态,而且也可以用来对ubuntu 进行升级。”

“apt是需要用命令 来操作的软件,不过现在也出现了很多有图形的软件,比如Synaptic, Kynaptic 和 Adept。”

命令

下面将要介绍的所有命令都需要sudo!使用时请将“packagename”和“string”替换成您想要安装或者查找的程序。

  • apt-get update——在修改/etc/apt/sources.list或者/etc/apt/preferences之後运行该命令。此外您需要定期运行这一命令以确保您的软件包列表是最新的。

  • apt-get install packagename——安装一个新软件包(参见下文的aptitude )

  • apt-get remove packagename——卸载一个已安装的软件包(保留配置文件)

  • apt-get –purge remove packagename——卸载一个已安装的软件包(删除配置文件)

  • dpkg –force-all –purge packagename 有些软件很难卸载,而且还阻止了别的软件的应用 ,就可以用这个,不过有点冒险。

  • apt-get autoclean apt会把已装或已卸的软件都备份在硬盘上,所以如果需要空间 的话,可以让这个命令来删除你已经删掉的软件

  • apt-get clean 这个命令会把安装的软件的备份也删除,不过这样不会影响软件的使用的。

  • apt-get upgrade——更新所有已安装的软件包

  • apt-get dist-upgrade——将系统升级到新版本

  • apt-cache search string——在软件包列表中搜索字符串

  • dpkg -l package-name-pattern——列出所有与模式相匹配的软件包。如果您不知道软件包的全名,您可以使用“package-name-pattern”。

  • aptitude——详细查看已安装或可用的软件包。与apt-get类似,aptitude可以通过命令行方式调用,但仅限于某些命令——最常见的有安装和卸载命令。由于aptitude比apt-get了解更多信息,可以说它更适合用来进行安装和卸载。

  • apt-cache showpkg pkgs——显示软件包信息。

  • apt-cache dumpavail——打印可用软件包列表。

  • apt-cache show pkgs——显示软件包记录,类似于dpkg –print-avail。

  • apt-cache pkgnames——打印软件包列表中所有软件包的名称。

  • dpkg -S file——这个文件属于哪个已安装软件包。

  • dpkg -L package——列出软件包中的所有文件。

  • apt-file search filename——查找包含特定文件的软件包(不一定是已安装的),这些文件的文件名中含有指定的字符串。apt-file是一个独立的软件包。您必须先使用apt-get install来安装它,然後运行apt-file update。如果apt-file search filename输出的内容太多,您可以尝试使用apt-file search filename | grep -w filename(只显示指定字符串作为完整的单词出现在其中的那些文件名)或者类似方法,例如:apt-file search filename | grep /bin/(只显示位于诸如/bin或/usr/bin这些文件夹中的文件,如果您要查找的是某个特定的执行文件的话,这样做是有帮助的)。

* apt-get autoclean——定期运行这个命令来清除那些已经卸载的软件包的.deb文件。通过这种方式,您可以释放大量的磁盘空间。如果您的需求十分迫切,可以使用apt-get clean以释放更多空间。这个命令会将已安装软件包裹的.deb文件一并删除。大多数情况下您不会再用到这些.debs文件,因此如果您为磁盘空间不足而感到焦头烂额,这个办法也许值得一试。

典型应用

我是个赛车发烧友,想装个赛车类游戏玩玩。有哪些赛车类游戏可供选择呢?
apt-cache search racing game
出来了一大堆结果。看看有没有更多关于torcs这个游戏的信息。
apt-cache show torcs
看上去不错。这个游戏是不是已经安装了?最新版本是多少?它属于哪一类软件,universe还是main?
apt-cache policy torcs
好吧,现在我要来安装它!
apt-get install torcs
在控制台下我应该调用什么命令来运行这个游戏呢?在这个例子中,直接用torcs就行了,但并不是每次都这么简单。我们可一通过查找哪些文件被安 装到了 “/usr/bin”文件夹下来确定二进制文件名。对于游戏软件,这些二进制文件将被安装到“/usr/games”下面。对于系统管理工具相应的文件夹是“/usr/sbin”。
dpkg -L torcs|grep /usr/games/
这个命令的前面一部分显示软件包“torcs”安装的所有文件(您自己试试看)。通过命令的第二部分,我们告诉系统只显示前一部分的输出结果中含有“/usr/games”的那些行。
这个游戏很酷哦。说不定还有其他赛道可玩的?
apt-cache search torcs
我的磁盘空间不够用了。我得把apt的缓存空间清空才行。
apt-get clean
哦不,老妈叫我把机器上的所有游戏都删掉。但是我想把配置文件保留下来,这样待会我只要重装一下就可以继续玩了。
apt-get remove torcs
如果我想连配置文件一块删除:
apt-get remove –purge torcs
额外的软件包
deborphan和debfoster工具可以找出已经安装在系统上的不会被用到的软件包。
提高命令行方式下的工作效率
您可以通过定义别名(alias)来提高这些命令的输入速度。例如,您可以在您的~/.bashrc文件中添加下列内容

alias acs=’apt-cache search’
alias agu=’sudo apt-get update’
alias agg=’sudo apt-get upgrade’
alias agd=’sudo apt-get dist-upgrade’
alias agi=’sudo apt-get install’
alias agr=’sudo apt-get remove’

或者使用前面介绍的aptitude命令,如“alias agi=’sudo aptitude install’”。

———————————————————————————————-

aptitude 与 apt-get 一样,是 Debian 及其衍生系统中功能极其强大的包管理工具。与 apt-get 不同的是,aptitude 在处理依赖问题上更佳一些。举例来说,aptitude 在删除一个包时,会同时删除本身所依赖的包。这样,系统中不会残留无用的包,整个系统更为干净。以下是笔者总结的一些常用 aptitude 命令,仅供参考。
命令 作用
aptitude update 更新可用的包列表
aptitude upgrade 升级可用的包
aptitude dist-upgrade 将系统升级到新的发行版
aptitude install pkgname 安装包
aptitude remove pkgname 删除包
aptitude purge pkgname 删除包及其配置文件
aptitude search string 搜索包
aptitude show pkgname 显示包的详细信息
aptitude clean 删除下载的包文件
aptitude autoclean 仅删除过期的包文件

当然,你也可以在文本界面模式中使用 aptitude。

有的问题 apt-get 解决不了,必须使用 aptitude 解决,有的问题,用 aptitude 解决不了,必须使用 apt-get

aptitude 解决得更好的地方: install, remove, reinstall(apt-get无此功能), show(apt-get无此功能), search(apt-get无此功能), hold(apt-get无此功能), unhold(apt-get无此功能),
apt-get 解决得更好的地方: source(aptitude无此功能), build-dep (低版本的aptitude没有build-dep功能)
apt-get 跟 aptitude 没什么区别的地方:update, upgrade (apt-get upgrade=aptitude safe-upgrade, apt-get dist-upgrade=aptitude full-upgrgade)