Microsoft PowerPoint 슬라이드를 HTML 파일로 ".files" 폴더 없이 저장하는 방법 (C# 코드)


C# 으로 PPT 파일을 html 로 변환시 생성되는 파일 문제 질문입니다.
질문자의 설명대로 PowerPoint 슬라이드를 HTML 파일로 저장하려는 경우, 내부에 사용된 이미지 파일 등으로 인해 "[파일명].files" 와 같은 특수 폴더가 함께 생기면서 저장이 됩니다.

예를 들어, 다음은 test.pptx 파일을 HTML 파일로 저장한 경우에 생성된 결과물입니다.

보시는 것처럼, test.html 파일이 생겼고 그와 함께 "test.files" 라는 폴더가 연결되어 그 하위에 이미지 파일등이 저장되어 있습니다.

사실, 마이크로소프트 입장에서는 나름 신경써서 이런 구조를 만들어 둔 것입니다.

Connected Files
Operations on an HTML file or folder apply to similarly named folder or HTML file
"Connected Files" 라고 해서, html 파일 하나를 지우면 같이 연결된 ".files" 폴더가 삭제되고, 또는 이동을 하게 되면 ".files" 폴더도 함께 이동되어 문서가 안전하게 다뤄질 수 있도록 해주는 기술입니다.

음... 그렇다고는 하지만, 역시 현업에서는 그냥 같은 폴더에 함께 출력해 주는 것이 선호될 수도 있을 텐데 그에 대한 배려까지 해주지 않은 것이 좀 아쉬움일 수 있겠군요. ^^

문제 해결은, 일단 PowerPoint 의 수준에서는 해결할 수 있는 저장옵션이 없습니다.

PpSaveAsFileType Enumeration
하지만, 수작업으로 보정해 주는 것은 간단합니다.

왜냐하면, 결국 출력된 test.html 파일 안에는 "test.files" 폴더에 담긴 파일들이 'path' 로 연결되어 있을 것이기 때문에 그에 대한 문자열 경로만 수정해서 저장해 주면 되기 때문입니다.

정말 잘 되는지 테스트를 한번 해볼까요? ^^

일단, PowerPoint 에 대한 참조를 추가하고,

Visual Studio 2010 / .NET 4.0 인 경우 "Embed Interop Types" 옵션을 False 로 바꿔줍니다.

이어서, 질문자의 코드대로 프로그램을 만들면 "html" 파일로 내보내기가 가능합니다.

static void Main(string[] args)
    string pathFileName = Path.Combine(Environment.CurrentDirectory, "test.pptx");
    string slideImagePath = Path.Combine(Environment.CurrentDirectory, "test.html");


        Microsoft.Office.Interop.PowerPoint.Application ppApp = new Microsoft.Office.Interop.PowerPoint.Application();
        Microsoft.Office.Interop.PowerPoint.Presentations ppPresentations = ppApp.Presentations;
        Microsoft.Office.Interop.PowerPoint.Presentation prsPres 
            = ppPresentations.Open(pathFileName,
            Microsoft.Office.Interop.PowerPoint.PpSaveAsFileType.ppSaveAsHTML, MsoTriState.msoFalse);


    string pathToHtml = Path.Combine(Environment.CurrentDirectory, "html");
    MergeFiles(slideImagePath, pathToHtml);

그 다음은 이렇게 내보내진 "test.files" 폴더의 내용과 html 파일을 하나의 폴더로 병합해주면 되는데요. 코드는 그렇게 복잡하지 않습니다.

private static void MergeFiles(string slideImagePath, string pathToHtml)
    string dirPath = Path.GetDirectoryName(slideImagePath);
    string subDirName = Path.GetFileNameWithoutExtension(slideImagePath);

    string subFilesPath = subDirName + ".files";

    string oldDirPath = Path.Combine(dirPath, subFilesPath);
    string newDirPath = Path.Combine(dirPath, pathToHtml);


    // .files 폴더 내용을 복사하고,
    foreach (string txt in Directory.GetFiles(oldDirPath))
        string fileName = Path.GetFileName(txt);
        string targetFilePath = Path.Combine(newDirPath, fileName);
        File.Copy(txt, targetFilePath, true);

    // HTML 파일 내용에서 ...files/... 인 경로를 모두 삭제
    string text = File.ReadAllText(slideImagePath);
    string replaced = text.Replace(subFilesPath + "/", string.Empty);

    string newHtmlPath = Path.Combine(newDirPath, Path.GetFileName(slideImagePath));
    File.WriteAllText(newHtmlPath, replaced);

    // .files 폴더와 연결된 html 파일을 삭제
    Directory.Delete(oldDirPath, true);

일단, 문자열 치환 기능은 string.Replace 로 단순하게 했습니다. 이 때문에 만약 본문에 "test.files/" 라는 문자열이 있다면 없어질 수 있는데요. 확률이 낮기 때문에 쓸만한 수준입니다. (물론, 확실하게 하려면 HTML 파일을 XML 로 로드해서 href 속성에 있는 경로만을 수정하도록 범위를 좁힌다면 확실한 결과물을 얻을 수 있습니다.)

이렇게 해서 실행하면 다음과 같이 하나의 폴더에 출력이 병합되고,

웹 브라우저로 test.html 파일을 보면 정상적으로 슬라이드 내용이 출력되는 것을 확인할 수 있습니다.

부가적으로, "Connected Files" 에 대한 기능을 레지스트리를 통해서 제어하는 것이 가능하다고 합니다.

JSI Tip 3841. What is the Windows 2000 Connected File feature?
클라이언트 측의 레지스트리 값을 함부로 건드리는 것은 좋지 않지만... 특정 머신에서만 이런 동작을 하는 거라면 나름 유용하게 씌여질 날이 오겠지요. ^^

키 경로: HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Explorer
이름: NoFileFolderConnection
값: 1 (1이면, Connected Files 기능 해제)