본 논문은 인터넷 웹페이지의 텍스트 정보를 추출하여 이를 음성으로 합성하기 위한 음성합성 엔진 및 넷스케이프 플러그-인의 설계 및 구현에 관한 것이다. 인터넷 웹페이지를 음성으로 합성하는 방법은 audio/x-esp MIME 타입을 임베딩한 웹페이지가 발견되면 이에 상응하는 플러그-인이 작동되며 해당 플러그-인은 URL로 지정된 HTML문서를 네트워크에서 가져와 컴맨더 오브젝트에 보내고, 컴맨더 오브젝트는 HTML문서를 파싱하여 합성엔진 제어용 TAG를 추출한다. 제어용 TAG에는 음성합성 데이터베이스 변경 및 합성음의 길이 또는 피치조절 파라미터 등의 정보를 갖고 있어 동적으로 합성음을 제어할 수 있다. 또한 컴맨더 오브젝트는 HTML문서 내부의 특정 테그로 지정된 문장을 추출하여 전처리 과정을 수행한 후 합성엔진을 위한 컴맨드 스트림을 발생한다. 음성합성엔진은 컴맨드 스트림을 훼치(Fetch)하여 명령어를 해석하고 해당 명령어에 상응하는 멤버함수를 실행하여 음성을 합성한다. 컴맨더 오브젝트와 음성합성엔진은 각각 독립적인 객체로 설계하여 이식성과 유연성을 높인다.
In this paper, the design and the implementation of the netscape plug-in and the speech synthesis engine generating the speech sounds from the text information of the web pages are described. The steps of the generating speech sound from an web pages are: the speech synthesis plug-in is activated when the netscape finds the audio/x-esp MIME data type embedded in the browsed web page; the HTML file referenced in the EMBED HTML tag is down loaded from the referenced URL to send to the commander object located in the said plug-in; The speech synthesis engine control tags and the text characters are extracted from the down loaded HTML document by the commander object; the synthesized speech sounds are generated by the speech synthesis engine. The speech synthesis engine interprets the command streams from the commander objects to call the member functions for the processing of the speech segment data in the data banks. The commander object and the speech synthesis engine are designed as an independent object to enhance the flexibility and the portability.