jsp中使用jdbc和dbcp一例

JDBC JSP MySQL Java SQL

<%@ page contentType="text/xml;charset=gbk"%><%@ page import="org.apache.commons.dbcp.*" %><%@ page import="java.io.*" %><%@ page import="java.util.*" %><%@ page import="java.util.regex.*" %><%@ page import="jav ...

2009-06-26 13:46
浏览 1182
评论(0)

MapRunnable设计一例

Hadoop Apache WAP Mobile XHTML

package org.apache.nutch.fetcher; import java.io.IOException; import java.util.HashSet; import java.util.Iterator; import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler; import org.apache.commons.httpclient.Header; import org.apache.commons.httpclient.HttpClient; import org. ...

2009-06-17 17:21
浏览 1640
评论(0)

使用PIL和StringIO做图片resize

FP C C++C#OS

StringIO就是把内存里的数据封装成文件句柄 import os, sys import Image import StringIO size = 128, 128 outfile = 'D:/wallcoo-3.jpg' try: #im = Image.open('D:/wallcoo.jpg') fp=open("D:/wallcoo.jpg", "rb") buffer=fp.read() im = Image.open(StringIO.StringIO(buffer)) ...

2009-04-28 17:00
浏览 1469
评论(0)

python中的正则表达式应用

正则表达式 Python C C++C#

f=open('wuqu.html','r') content=f.read() m=re.findall('<tr>[\w|\W]*?</tr>', content) print len(m) if m is None:return for i in range(1,len(m)): c=m[i] d=re.findall('<a[\w|\W]*?</a>', c) if d is None:continue if not len(d) = ...

2009-04-08 10:56
浏览 813
评论(0)

Tkinter图形界面设计

FP Mobile SQLite Socket C

#coding=gbk from Tkinter import * import pycurl import sys, re, md5, os, time, commands import pycurl import cStringIO as _StringIO import sys import shutil, urllib, urllib2 import socket,sqlite3 as sqlite import datetime, time from time import sleep site='12530' # MIME type accept_t ...

2009-03-29 19:01
浏览 1684
评论(0)

python url编码

Python

urllib2.quote(u'北京'.encode('utf-8'))

2009-03-29 12:07
浏览 933
评论(0)

nutch搏斗之一

Java Apache 互联网 Servlet JSP

问题描述：在用nutch1.0做generate 包括5亿url的crawldb时，它默认按照64M分块，分成777个map task，在运行的后期出现 Could not find taskTracker/jobcache/job_200903231519_0017/attempt_200903231519_0017_r_000051_0/output/file.out in any of the configured local directories 异常。解决办法：减小task数目，改成按照crawldb里面文件个数划分的策略： public static class In ...

2009-03-26 19:01
浏览 1452
评论(2)

设计python版的爬虫

Python FP 正则表达式 Firefox 浏览器

准备工作安装Python2.5 安装easy_install，pycurl，lxml；建议使用firefox浏览器，可以方便的使用各种调试插件。基本知识需要了解python中unicode的原理，以便掌握GBK和UTF-8的转换方法. 假设content是GBK编码，在python中，转换成UTF-8的方法如下： Content=Content.decode(‘gbk’).encode(‘utf-8’) 3 专业技能需要熟练掌握xpath，强烈推荐在信息抽取时使用xpath，这是一种基于文档结构的方法。优于使用正则表达式。正则表达式是一种字符串匹配的方法，难于维 ...

2009-03-26 10:49
浏览 2149
评论(0)
分类:编程语言

eclipse profile tool

Eclipse performance HTML

http://www.eclipse.org/tptp/home/downloads/4.5.0/documents/quicktour/quick_tour.html Eclipse Test and Performance Tools Platform

2009-03-26 10:44
浏览 1027
评论(0)

python抓取

Python FP 正则表达式 Firefox 浏览器

准备工作可以使用Python2.5，推荐使用2.4，因为需要兼顾wkfs的接口。安装easy_install，pycurl，lxml；建议使用firefox浏览器，可以方便的使用各种调试插件。基本知识需要了解python中unicode的原理，以便掌握GBK和UTF-8的转换方法. 假设content是GBK编码，在python中，转换成UTF-8的方法如下： Content=Content.decode(‘gbk’).encode(‘utf-8’) Python中的常用集合类包括链表list=[]和字典dict={}。 3 专业技能熟练掌握xpath，强烈推荐在信 ...

2009-03-20 09:59
浏览 1519
评论(0)

nutch在单机windows下测试环境的配置

Windows Hadoop Mapreduce Java IBM

通常来说nutch应该部署在多台机器上，做并行抓取，那么配置nutch在单机windows下有什么意义呢？就是方便debug。下面分步骤详述。 1.安装JDK 6，eclipse3.2以上版本 2.为eclise安装IBM mapreduce tools插件 http://www.alphaworks.ibm.com/tech/mapreducetools 3.安装cygwin，并设置环境变量 4.下载nutch源代码，我使用的是最新的1.0版本 5.在eclipse中创建MapReduce Project工程。将nutch下的src/java下的所有代码复制到工程的src目录下，a并 ...

2009-03-19 13:53
浏览 1076
评论(0)
论坛回复 / 浏览 (0 / 4325)
分类:企业架构

eclipse debug

Eclipse

f5 shenru f6 over f7 return

2009-03-18 14:39
浏览 755
评论(0)

利用lxml，得到html元素的绝对xpath路径

HTML F#C C++C#

#coding=gbk import lxml.etree import lxml.html as x f=open('f:/test.html','r') c=f.read() doc=x.document_fromstring(c) alist=doc.xpath("//a") for a in alist: tree=lxml.etree.ElementTree(a) print tree.getpath(a)

2009-03-13 16:05
浏览 2578
评论(0)

mod_python headers_out

Python Apache Java

In mod_python it's: req.headers_out["Content-type"] = "application/force-download" req.headers_out["Content-Disposition"] = "attachment; filename=%s" % filename #/usr/local/apache/htdocs/segmentMusic req.headers_out['Content-Disposition'] = 'handler; filena ...

2009-03-11 20:57
浏览 961
评论(0)

mod_python示例

Python Apache

from mod_python import apache def handler(req): req.content_type = "text/plain" req.write("Hello World!") return apache.OK

2009-03-10 12:01
浏览 919
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论