Python實現批量處理檔案的縮排和轉碼問題

阿新 • • 發佈：2019-02-07

最近把很久前的C程式碼傳到Github上的時候，發現全部上百個原始檔的程式碼縮排都變成了8格，而且裡面的中文都出現了亂碼，所以決定寫個程式來批量處理所有檔案的格式。這段關於轉碼的程式碼可以適用於很多場合，比如Window下預設編碼是GBK，而Linux下預設編碼是UTF-8，如果兩者間傳輸的檔案中出現中文，則需要進行轉碼。

問題分析
縮排問題是因為在之前使用vc時沒有將制符表設定為4個空格，而Github上的Tab鍵預設顯示八格。中文亂碼問題是由於vc++使用的是GBK編碼。
解決思路
1.縮排問題，也就是用空格替換Tab，通過Python程式讀取每一行C程式碼，計算出對應的空格個數，新增到去除首尾空格的源字串前構成新的一行，然後寫入新的檔案。
2.亂碼問題，根據Python特性，讀取一行字串後，將在內部自動解碼

（decode）為Unicode形式，只需要在寫入時以utf-8進行編碼（encode）並輸出就可以實現編碼的轉換。注意Python輸入輸出的預設編碼為cp936（gbk），要在開啟檔案時指定寫入檔案的編碼格式。
3.程式只需接收原始資料夾的路徑，通過遞迴遍歷將目錄中所有C檔案處理後輸出到新的資料夾，新資料夾與原始檔夾所在目錄相同，且包結構完全相同。

import os, codecs

#計算該行應有的縮排空格（考慮Tab和空格混用的情況）
def count_space(st):
    count = 0
    if st == '\n':
        return 0
    for 
 ch in st:
        if ch == '\t':
            count = count + 4
        elif ch == ' ':                             
            count = count + 1
        else:
            break
    return count    

#處理檔案：1.將tab轉換成相應個數的空格 2.轉化為utf-8編碼
def process_file(src_path, dest_path):
    #設定寫入的編碼方式為utf-8
    #或使用open(dest_path, 'w', encoding = 'utf8') 

    with open(src_path, 'r') as fr, codecs.open(dest_path, 'w', 'utf-8') as fw:
        for line in fr.readlines():
            clean_line = line.strip()    
            n_space = count_space(line)
            i = 0
            sp = ''
            while i < n_space:
                sp = sp + ' '
                i = i + 1
            line = sp + clean_line + '\n'
            fw.write(line)

#遞迴遍歷整個目錄
def travel(src_path, dest_path, item):
    if not os.path.isdir(src_path):
        if os.path.splitext(src_path)[1] == item:
            process_file(src_path, dest_path)           #直到遇到相應檔案，就進行處理
        return

    if not os.path.isdir(dest_path):                    #建立對應的目標目錄
        os.mkdir(dest_path)
    #層層深入
    for filename in os.listdir(src_path):
        travel(os.path.join(src_path, filename), os.path.join(dest_path, filename), item)

if __name__ == '__main__':
    src_root = 'C:\\Users\\Administrator\\Desktop\\C-Primer-Plus'           #接收要處理的資料夾（這裡直接指定）
    dest_root = src_root + '-new'                                           
    item = '.c'                                                             
    travel(src_root, dest_root, item)

Python實現批量處理檔案的縮排和轉碼問題

最近把很久前的C程式碼傳到Github上的時候，發現全部上百個原始檔的程式碼縮排都變成了8格，而且裡面的中文都出現了亂碼，所以決定寫個程式來批量處理所有檔案的格式。這段關於轉碼的程式碼可以適用於很

使用python實現批量轉換檔案編碼格式

最近在學習redis的原始碼，從網上下載了一份大神註釋好的程式碼，但是檔案編碼格式是utf-8的使用sourcesight開啟會出現亂碼，sourceinsight不支援utf-8格式，網上找了一下，說需要安裝外掛解決，今天主要目的不是整sourceinsight，主要最近在

用 python 實現批處理檔案

Windows下的bat, linux 下的shell 用來做批處理都很好用, 可惜不通用用 Python 來做就簡單多了, 不過一條條寫程式碼來呼叫系統命令也夠煩的了程式設計師都很懶, 不願做機械無謂的重複性工作, 乾脆自己實現一個. 用法超級簡單,

OpenCV3計算機視覺Python語言實現（二）:處理檔案、攝像頭和圖形使用者介面

2.1 基本I/O指令碼 2.1.1 讀/寫影象檔案 2.1.2 影象和原始位元組之間的轉換 2.1.3使用numpy.array()訪問影象資料 2.1.4 視訊檔案的讀寫 2.1.5 捕獲攝像頭的幀 2.1.6 在視窗顯示影象 2.1.7 在視窗顯示攝像

利用python實現自動捕獲程序netstat資訊和自動捕獲telnet資訊，儲存log檔案

#!/usr/bin/env python3 # -*- coding: utf-8 -*- """ AUTH: [email protected] tag: telnet ,then execute all of the API,and capture the p

python 批量處理檔案

背景批量處理檔案，將每個檔案相同結構的內容整理到一個檔案中，每個檔案都在新檔案的一行. 讀取是按行讀取程式碼展示 import os def eachFile(filepath): """ 讀取資料夾下面的所有檔案的路徑"

python實現批量刪除某個路徑下所有的某種檔案

引言：下面是以前寫的批量刪除某資料夾及其子資料夾下的.pyc檔案，可參照下實現批量刪除別的型別的檔案。用的是python2.7 #coding=utf-8 import os def r

Python實現批量執行同目錄下的py檔案

Python版本：3.5 網上找了好多資料都沒有直觀的寫出怎麼批量執行，so，整理了一個小程式。最初是為了用Python進行單元測試，同目錄下有兩個unittest檔案， AllTest.py的目的是批量執行mytest.py、mytest2.py。程式碼如下： #批

python批量處理檔案/操作檔案

Python批量處理/操作檔案 python自動化處理檔案非常實用，尤其是在大量重複勞動中本文以批量處理不同資料夾下的文字檔案為例： os模組檔案路徑狀態： E:\CSDN ………….\demo1 ……………………\demo1dir

利用python實現批量查詢ip地址歸屬地址

proc shadow 手動 color sys copy lis rip image 今天需要查詢nginx訪問的客戶端ip是否和調度一樣！先是用shell把文件中的ip截取出來： python腳本如下：（哈哈，新手寫的很草率）#!/usr/bin/env#-- codi

DOS下批量處理檔案指令碼

@echo off set SOURCE_DIR=e:\download\src set TARGET_DIR=e:\download\dst set CONVERT_TOOL=convert.exe for /r %SOURCE_DIR% %%i in (*) do if not exist %T

利用python實現批量插入列印資訊的方法

使用列印資訊是除錯程式的必備手段，但是面對下面兩種情況： 1.如果程式程式碼/原始檔較多，而一時之間又無法確定問題範圍，這個時候可能需要在多個檔案插入列印資訊 2.剛剛接手維護大型模組，想要了解執行流程，需要在有可能執行到的地方都加入trace 上述情況，如果手動在每個函式的開頭

PHP如何利用Python實現對PDF檔案的操作

需求：在PHP裡實現了把8.pdf的前4頁pdf檔案截取出來生成新的pdf檔案。詳細步驟如下：前提：python必須是3.x版本以上，必要時需要升級pip3,命令如下：pip3 install --upgrade pipPyPDF 自 2010年 12月開始就不在更新了，PyPDF2 接棒 PyPD

FFmpeg+python實現批量視訊分幀

使用FFmpeg工具對短視訊批量分幀，以下是一段很簡單的程式碼： import PIL.Image as Image import pylab import imageio #註釋的程式碼執行一次就好，以後都會預設下載完成 #imageio.plugins.ffmpeg.download()

VS2013中自動縮排和註釋的快捷鍵

自動對齊操作：Ctrl+K+F 撤銷：Ctrl+Z 重做：Ctrl+Y 呼叫智慧提示（輸入關鍵詞時自動提示）：Ctrl+J 快速隱藏或顯示當前程式碼段：Ctrl+M+M（快速按兩次M）回到上一個游標位置：Ctrl+- 去到下一個游標位置：Ctrl+Shift+- 添加註釋：Ctrl+K+C

Python實現批量註冊網站使用者

Python實現批量註冊網站使用者 # -*- coding:utf-8 -*- import random,urllib,urllib2 import re,time x=input("請輸入需要註冊的數量:") # x=raw_input() #轉換成字串的##

Python對批量wav檔案改名

sample = r"C:\Users\Administrator\Desktop\aws-3 " files = os.listdir(sample) files = [sample + "\\" + f for f in files if f.endswith('.wav')] nu

Python對批量wav檔案加入高斯白噪聲

#coding=gbk import os import wave import librosa import numpy as np def add_noise(data): wn = np.random.normal(0,1,len(data)) data_noise =

Python對批量音訊檔案（wav）進行分段切割並儲存

#coding=gbk import os import wave import numpy as np import pylab as plt CutTimeDef = 1 #以1s截斷檔案 # CutFrameNum =0 path = r"..\test" file

python 實現批量修改檔名

#!coding=utf-8 import sys import os def replace_filename(file_path, var1, var2): for root, dirs, files in os.walk(file_path): for file

Python實現批量處理檔案的縮排和轉碼問題

相關推薦