[[プログラム周り]]

htmlからテキスト文だけ取り出す。webかpython-mlで見つけた。
ありがとう。ななしさん。
 ent = {
   'nbsp': ' ', 
   'lt': '<', 
   'gt': '>', 
   'amp': '&', 
   'quot': '"', 
   'apos': '\''
 }
 r = re.compile(r"<.*?>", re.DOTALL)
 s = r.sub("",open('htmlfile').read())
 s = re.sub("&(\w+);", 
 lambda x:ent.get(x.group(1), x.group()), s)
 s=re.sub(r'\n','',s)
 print s

トップ   差分 バックアップ リロード   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS