Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
Human and Language Technology (SIGHLT)
- Annual
- /
- 2005-3053(pISSN)
Domain
- Information/Communication > Information Processing Theory
1992.10a
-
올해는 한글이 반포된지 546년을 맞는 해이다. 뿐만아니라 우리의 전통 주조활자 방법에서 근대식 새활자 주조법으로 처음 한글 활자가 만들어진지 112년을 맞는 해이기도하며, 원도에 의한 기계조각 활자법이 처음 도입된지 38년, 한글 사진식자가 본격적으로 도입되고 보급된지 대략 20여년, 그리고 한글 전산 활자체가 개발되기 시작한지 대략 15년을 맞는 해이기도 하다. 이러한 햇수계산에는 활자산업의 발달 과정과 그 속도에서 의미하는 바가 크다고 보며, 더 나아가서는 활자산업에서 우리의 기술역량 문제의 제기까지도 함축되어 있는 햇수계산이기도 하다. 향후 한글 폰트( FONT )의 발전을 가늠하기 위해서 이제까지 과정을 되새겨 봄으로서 바람직한 방향을 찾고자 한다.
-
본 연구는 한글 문헌을 컴퓨터를 이용하여 축약하는 시스템 구축에 관한 연구로서, 기존의 '완전 자동축약'에 따른 축약문 생성의 편협성을 해결하기 위하여 '자동축약 + 후통제 처리'라는 절충형 시스템 관리 형태로 실제 실현 가능한 시스템을 설계한다는데 그 큰 목적이 있다. 대상 문헌에 대한 구체적 적응 문법은 언어학적 문법 이론인 '격문법 이론'과 '성분 이론'을 그 핵심으로 이용하여 문장을 '의미 있는 어절' 단위로 추출, 해당 문헌을 축약하는 방법을 택하였다.
-
시소러스를 작성하기 위해 시소러스 작성자가 고려래야 하는 문제는 단어간의 개념 관계이다. 단어간의 관개는 계층구조에 정의된 개념을 기반으로 분석하여 하향식으로 시소러스를 작성하는 것이 일반적이다. 이러한 방식은 작성자에 의존적이므로 시소러스의 정확도를 보장할 수 없고 주관적인 성향을 가진다. 그래서 Corpus에서 자동으로 개념 및 개념 관계를 추출하는 상향식 방법들이 다양하게 시도되고 있다. 본 논문에서는 시소러스 작성을 위한 자동 개념 획득 도구를 설계, 구현하였다. Mutual Information이라는 방법을 이용하여 공기 정보(Collocation)를 정량화하고 이를 통하여 단어간의 개념관계의 크기를 측정한 후 개념 관계의 크기(MI 값)가 큰 값을 선택하여 개념 화일을 작성한다. 실험 결과로 얻은 개념 화일은 두 개념간의 밀접도를 나타내므로 시소러스 작성에 매우 유용하다.
-
전자전화번호부 서비스는 HiTEL단말기 및 기존의 PC를 소유한 가입자의 전화번호 관련문의에 대해 신속, 정확한 정보를 제공하는 비디오텍스 응용시스팀으로서 통신처리시스팀, 서비스검색시스팀, 화일관리시스팀으로 나뉠 수 있다. 전화번호화일은 가입자에 따라 인명부, 업종상호부로 나뉘어 CISAM 방식의 화일로 구현하였으며, 상호인 경우 1:N 필드관계를 지원하여 하나의 전화번호에 대해 다수 업종의 지원이 가능하다. 전화가입자의 일일 변동자료의 처리및 화일의 갱신에 대해 소개하고자 한다.
-
전자전화번호부 서비스(EDS)는 기존 전화번호정보 안내의 목적인 114전화번호안내 서비스, 전화번호부 발간, 가입자 직접검색서비스등의 각기 고유의 정보제공 방법에서 각 개체가 가진 전화번호관련 정보를 부가가치를 지닌 정보로 재구축하여 공익서비스의 측면에서 사용자가 HITEL단말기를 이용하여 White page정보 및 yellow page 정보를 문자및 화상형태로 제공받을 수 있는 비데오텍스 응용서비스로써, 본고에서는 EDS 검색시스팀 개발에 관련된 연구결과를 정리하였다.
-
한 언어에 대한 포괄적인 언어정보 데이타베이스의 구축에 있어서는 수집된 텍스트에 대한 상세한 문법정보의 주석이 일차적 작업 대상이 된다. 이는 통사적 정보가 단순히 구문 분석상의 문제들을 해결하기 위한 정보를 제공해주는 것일 뿐 아니라 형태소 해석 및 문장 의미의 파악등 자연언어 이해시스템 전반의 성능을 향상시키는 데에 중요한 물을 차지하기 때문이다. 각개 단어의 문법적 기능에 대한 주석은 사전적 정의에 따른다면 "품사"로 표현할 수 있을 것이다. 그런데 품사는 각개 단어가 지니는 고유한 어휘의미적 정보이기보다는 구문구조에 의존적인 양상을 보인다. 이는 사전에 따라서 각개 단어에 대한 품사 정보가 달리 나타나는 점에서도 간취할 수 있는데, 한편으로 한국어 언어정보 데이타베이스 구축을 위한 문법적 주석에 있어서는 기존 사전의 품사정보에만 의존할 수는 없다는 문제점이 제기된다. 따라서 각 어휘들의 구문정보(흑은 품사정보)를 어떻게 기술할 것인가가 해결되어야 하는 것이다. 본 연구에서는 일차적으로 각 어휘들의 문장 안에서의 기능을 바탕으로 한 주석체계를 설정하고 그에 따라서 약 12만개의 문장에 대한 일차적 형식화를 수작업으로 처리하였다. 이는 향후 자동적으로 문법적 주석이 가능하도록 해주는 시스템의 개발을 지원하기 위한 언어정보의 수집에 목적을 둔 것인데, 이를 통해서 기존 국어사전에서의 언어정보상의 미비점을 수정 보완할 몇 가지 근거를 마련할 수 있었다.
-
본 논문은 한글-한자 변환에 있어서 여러 대응 한자를 갖는 동형이의어의 모호성 해소 방법을 제안한다. 기존의 변환 방법은 사용자의 개입으로 이루어지므로, 사용자에게 많은 부담을 주고 변환 효율을 떨어뜨린다. 한자선택에 있어서 동형이의어 문제의 근본적 해결을 위해, 본 시스템에서는 의미 분석을 이용한 한글-한자 변환기를 제안한다. 이를 위해 격문법과 관련어 지식 베이스(thesaurus)를 사용한다. 격문법을 사용하여 서술어를 중심으로 관련된 격틀의 의미를 분석한다. 그리고 합성어의 경우에 합성어의 구성 형태에 따라 격문법을 사용하거나 관련어 지식 베이스에서의 의미 근접성을 사용한다. 본 논문은 이와 같이 의미 분석 및 개념 정보를 기반으로 하는 동형이의어의 모호성 해결 방안을 제시하고 이를 반영한 한글-한자 변환 시스템의 설계 및 구현에 관하여 기술한다.
-
본 논문은 구문해석, 의미해석 등의 전처리 단계로서의 형태소 분석기 구현에 대해 기술하고자 한다. 먼저 기존의 접속정보의 단점을 보완하는 새로운 접속정보를 정의한다. 이 접속정보는 계층적구조를 가지고 심볼로써 표현되며, 기존의 좌우 두 가지 접속정보를 사용한 방법과는 달리 좌우를 하나로 통합한 정보를 사용한다. 따라서 접속정보 유지와 확장에 편의를 제공해 주고 접속정보 부여시 정확성을 더할 수 있고, 계층적구조를 살려서 접속정보표의 구성을 용이하게 한다. 또한 불규칙활용에 있어서는 사전정보에 의한 선언적 방법과 프러시져에 의한 절차적 방법의 장점을 살려 혼용하였다. 끝으로 앞에서 정의된 새로운 접속정보 방식의 장점을 살려서 정확한 분석 결과를 얻을 수 있는 형태소 분석기의 구현에 대해 설명한다.
-
교착어(agglutinating language)에서는 다양한 통사정보가 독자적인 형태소에 내재되어 있다. 국어의 경우 형태소의 분석이 통사구조 분석에 선행되어 이루어져야 하는 이유가 바로 국어의 교착어적인 속성에 기인한다. 이 논문의 전반부에서 국어의 교착성을 명확히 보여주는 등위 접속구문을 핵심어 주도 구구조문법(HPSG)에 의하여 분석한다. 후반부에서는 PROLOG로 구현된 국어의 형태소 분석기와 통사구조 분석기(PARSER)를 소개한다.
-
컴퓨터가 자연 언어를 이해하기 위해 가장 필요로 하는 것은 단어에 대한 정보다. 단어는 문장 안에서 나름대로의 정보를 지니고 사용된다. 사람들이 실제 생활에서 사용하는 문장을 대량으로 모아 둔 것을 말뭉치(Corpus)라 한다. 그러므로, 단어가 인간 언어 생활에서 사용되면서 지니는 정보를 찾기 위해서는 말뭉치를 들여다보는 것이 필요하다. 본 논문에서는 문장이 갖고 있는 정보 중 많은 것을 표현할 수 있는 언어, VAR를 설계한다. 그리고 말뭉치를 VAR로 표현해서 관리하면서 언어학자 및 전산학자가 좋은 지식 기반(Knowledge Base)를 만들 수 있는 기초를 제공한다.
-
전문가 시스템은 인공지능 분야에서 가장 성공적인 사례로 꼽히고 있다. 본 논문에서는 전문가 시스템에서 채용하고 있는 핵심기술인 패턴-액션 규칙이 자연어 구문 분석 작업에도 성공적으로 적용될 수 있음을 보이고자 한다. 자연어의 문법 규칙을 전문가 시스템의 생성 규칙 형태로 표현하고, 전문가 시스템의 추론 엔진에서 이용하는 알고리즘(특히 전향 추론 방식)을 이용하여 구문 분석을 진행하도록 한다. 이 방법이 부분 자유 어순과 중심어 후행과 같은 특징을 가진 한국어의 분석에도 적용될 수 있음을 보였다.
-
본 논문에서는 자연언어 처리 시스템에서 사용할 수 있는 단어의 개념 정보에 대해 연구한다. 그러기 위해 언어의 실생활에서의 쓰임 - 연세대학교 사전 편찬실의 연세 말뭉치 -을 바탕으로 한국어의 동사와 명사에 대해 개념을 조사, 분류하였으며 그 개념들이 한국어 문장 분석기에 어떻게 이용되는가를 보인다.
-
자연어를 분석하는데 있어 가장 중요한 것은 지식 베이스(Knowledge Base)가 얼마나 정확하고 많이 구축되어 있는가 하는 것이다. 일반적으로 이 지식 베이스는 사전으로 구성될 수 있는데 이를 전자 사전이라 한다. 또 지식 베이스의 정보들은 계속적으로 유지, 수정되는데 이는 말뭉치의 분석을 통해 얻어질 수 있다. 본 논문은 전자사전의 구성및 말뭉치의 분석과 관리를 구문 분석기를 통해서 알아본다.
-
한국어는 그 자체의 특성 때문에 영어와는 또 다른 형태의 구문적인 애매성을 포함하고 있다. 이와 같은 구문의 애매성을 해결하기 위해서는 여러 가지의 정보가 필요할 것이다. 예를 들면, 품사정보의 세분류, 명사들의 의미 속성정보들이 그것이다. 본 논문은 한국어 문장의 구문적인 애매성을 해결하기에 앞서 먼저 한국어 문장에 어떤 형태의 애매성이 포함되어 있는 지를 조사.분석한 것이다. 본 논문에서는 구문적인 애매성을 효율적으로 분석하기 위한 수단으로 구문 그래프를 이용하였다. 한국어 문장에는 다품사에 의한 애매성, 조사구 부착에 관한 애매성, 복합 체언구에 관한 애매성, 부사구 부착에 관한 애매성, 관형어의 수식 범위에 관한 애매성이 있다. 이들 중에서 복합 체언구에 의한 애매성이 가장 많은 애매성을 가지고 있었다. 즉, 실험 대상문장에서 발생가능한 전체의 애매성의 62%가 복합체언구에 관한 것이다. 따라서 한국어에서는 복합체언구에 관한 구문 구조적인 애매성 해소가 가장 우선적으로 해결해야 할 과제이다.
-
본 논문에서는 일반적인 음성 합성 시스템과 모음-자음-모음(VCV) 연쇄음을 단위로 한 규칙 합성에 대해 고찰하고, 한국어의 음성 합성을 위한 VCV 연쇄음의 종류와 각 연쇄음의 빈도 및 사용예를 조사하기 위하여 약11만 단어의 어휘 목록과 3만 6천행 가량의 한글 문서를 분석, 연구한 결과를 기술하였다. 본 연구의 결과, 한국어의 음성 합성에는 약 2500여 증류의 VCV 연쇄음이 필요함을 확인하였다.
-
이 논문에서는 음성인식기술을 이용한 연구센타 부서안내 시스팀(KARS:Korea Telecom Automatic voice Recognition system)에 대하여 기술하였다. 이 시스팀은 기본적으로 음성응답 시스팀과 유사하지만 명령입력을 위해 푸시버튼 대신 음성을 이용한다는 점이 다르다. 사용자가 마이크로폰을 통해 음성명령을 입력하면, 이 시스팀은 사용자의 음성명령을 인식하여 연구센타내 각 부서의 간략한 소개, 전화번호 및 위치를 안내해 준다. 이 시스팀은 HMM(Hidden Markov Model)을 이용하는 화자독립 격리단어 인식시스팀으로서 116개의 부서이름과 7개의 제어용 단어로 구성되어 있는 123개 단어를 인식할 수 있다. 이 시스팀은 음소와 유사한 한국어 서브워드(subword)를 HMM의 기본단위로 사용하며 인식 실험결과 98.6%의 인식율을 얻을 수 있었다.
-
이 논문에서는 123개 단어의 한국어 음성에 대하여 음성의 대역폭 변화에 따른 인식률을 비교하였다. 인식률 비교실험을 위해 hidden Markov model과 음소와 유사한 131개의 한국어 subword 유니트를 사용한 화자독립 격리단어 인식 시스팀을 사용하였다. 이 실험은 대역폭이 각각 0 - 4.5kHz 및 0.3 - 3.3kHz인 두가지 종류의 음성 데이타베이스를 사용하였다. 훈련과정에서 corrective training의 반복회수를 2로 하고 state transition duration 정보를 사용하였을 때, 0 - 4.5kHz 와 0.3 - 3.3kHz 대역폭에 대해 각각 98.8 % 및 98.2 % 의 최고 인식률을 얻었다. 이로부터 전화대역폭에서도 음성인식률은 크게 저하되지 않음을 알 수 있다.
-
이 논문은 문장음성 변환시스템인 글소리II를 위한 읽기규칙에 관한 것이다. 읽기규칙이란 텍스트를 소리나는대로 읽어주는 모든 처리를 말한다. 읽기규칙의 가장 대표적인 음운변동규칙을 비롯하여 모음의 발음, 장음처리, 숫자읽기, 약어 및 기호읽기 등이 포함된다. 이 논문에서는 음운변동규칙을 6개의 대규칙과 22개의 소규칙으로 정리하고, 대규칙들 사이의 적용순서를 정의하였다. 그리고 단어의 장단이 중시되는 우리말의 특성을 반영할 수 있도록 장음처리부분을 추가하였다. 위의 읽기규칙으로 처리할 수 없는 부분에 대해서는 예외발음사전을 이용하고 있다.
-
한국어 음성 및 언어정보처리를 위해 필수적인 우리말 음성 데이타베이스의 구축을 위하여 먼저 각국의 동향을 살펴보고, 용도, 필요성, 기술적 고려사항에 관하여 검토한후 현재 전자통신연구소에서 수행하고있는 관련연구활동및 계획을 소개한다.
-
본 논문은 오프라인 필기체 한글 인식에 관한 연구로서, 입력 문자 영상에 대한 위치 정규화, 외곽선 추적 및 세선화의 전처리 과정을 거쳐 외곽선의 방향 성분 분포, 세선화한 결과의 방향 성분 분포, 구조적 특징점 분포 등의 특징을 추출한 다음, 획을 추출하여 획의 방향과 길이에 대한중점 분포 특징으로 정합하는 필기 한글의 인식을 위한 획 정합 방법을 제안하였다. 인식 시간의 단축을 위해 먼저 외곽선의 방향성분분포를 이용하여 대분류하였으며, 한글 사용 빈도수 상위 520자로 구성되는 필기 데이타에 대한 실험 결과, 평균 91%의 인식률과 평균 0.46초의 문자당 인식 시간을 보임으로써 제안된 획 정합 방법이 입력 문자의 잡영이나 획의 기울기에 대한 변형을 효과적으로 흡수할 수 있음을 알 수 있었다.
-
본 논문에서는 통계적인 특징 추출 방법을 사용하여 샘물체로 필기된 한글을 고속으로 인식하는 방법을 소개한다. 대부분이 직선 성분으로 이루어진 한글의 특성을 이응하기 위하여 입력 영상으로부터 수평, 수직, 사선, 역사선의 방향 성분을 추출하며, 검은 화소의 밀도에 따라 동적으로 그물을 결정함으로써 획 간의 접촉 변형에 무관한 특징 벡터를 추출한다. 이와 같은 통계적 특징 추출 방법은 크기 정규화나 세선화 과정이 필요없으며, 또한 샘물체라는 필기 형태의 제약에 의해 정합 대상 부류의 수가 현저히 줄어들기 때문에 인식에 소요되는 시간을 상당히 줄일 수 있음은 물론, 인식률을 향상시켰다. 제안된 방법의 타당성을 검증하기 위하여 샘물체로 필기된 KS 완성형 한글 2,350자에 대해 실험한 결과, 평균 90% 이상의 인식률을 보이며, IBM PC 486(33MHz)상에서 문자당 평균 0.17초의 인식 속도를 보임으로써, 실용적인 고속 OCR 시스템의 개발 가능성을 확인할 수 있었다.
-
인간이 문자를 어떻게 인식하는가에 관한 많은 연구 결과는 인지 과학자들과 심리학자들에게 의해서 주도되어 왔다. 이에 따라 본 논문은 인간의 시각 체계에 대한 인지적 연구 이론 및 원리를 요약하고 오프라인 한글 문자 인식을 위한 인지적 모델의 필요성을 설명한다. 여러 실험 결과와 주의 이론, 체제성 원리 및 맥락 효과를 도입한 새로운 모델을 개발하고 한글의 구조적 특성을 고려한 구현 모델로 제시한다.
-
단어모양이 한글 시각정보처리에 미치는 효과를 알아보기 위해 명조체와 샘물체로 된 한음절 글자, 두음절 단어, 세음절 단어의 정확인식율을 비교하였다. 명조체는 자모의 모양과 크기가 글자의 고정된 사각틀에 맞게 변형되므로 단어모양이 글자의 자모조합 유형과 음절길이에 따라 크게 달라지지 않는다. 이에 반해 샘물체는 자모조합 유형에 따라 글자의 사각틀이 변형되므로 부가적인 단어변별 정보가 단어모양에 포함되며, 음절길이가 증가할 때 단어모양 정보가 명조체에 비해 더욱 두드러진다. 이처럼 서로 구별될 수 있는 명조체와 샘물체 단어의 시각적 구조는 각각 다른 근거에서 한글인식에 영향을 미칠 수 있을 것으로 예상된다. 연구결과, 명조체의 정확인식율이 샘물체보다 높았으며, 음절길이가 증가할 때 명조체와 샘물체에 상관없이 정확인식율이 향상되었다. 본 실험의 결과는 단어의 외곽모양 변이가 영어의 경우보다 한글 시각정보처리에서 상대적으로 덜 중요하다는 것을 시사한다.
-
이 논문에서는 전자식 전화기를 이용하여 문자를 입력할 수 있는 코드를 제안하였다. 기존의 문자 입력 방식들과 새로이 고안된 입력 방식을 입력 속도, 수용할 수 있는 문자의 수 및 입력시의 모호성 발생 여부를 판단 기준으로 비교하고 시험하여 새로운 방식이 더 우월함을 입증하였다. 이 방식에 기초하여 한글자모, 영문자를 전화기의 문자판에 배치하고, 그 배치가 최적인지를 검증하기 위해 각각의 배치에 대해 여러가지 시험을 실시하여 표준
$4{\times}3$ 형의 전화기 자판에 최적인 문자 코드 배치를 선택하였다. -
알파뉴메릭 사용 언어권과는 달리 한글에서는 처리코드와 출력코드를 구별할 필요가 있다. 한글의 처리코드로는 완벽한 한글 처리가 가능한 조합형이 옳다는 데에 재론의 여지가 없다. 그러나 전자출판의 경우 출력코드는 조합형과 완성형을 모두 사용하는 절충형이어야 한다. 절충형 코드를 구현하기 위한 기초 연구로서 국민학교 국어교과서를 분석하여 완성형꼴(음절)의 범위를 예측하였다. 1400자는 완성형으로, 나머지 9700자 가량은 조합형을 사용하는 방식이 한글 출력코드 체계로서 적합할 것이다.
-
모아쓰기 원리에 의한 한글은 조합 가능한 글자수가 총 11,172자에 달한다. 오늘날 정보산업화 시대의 다양한 요구로 인해 과거와 달리 이제는 한 벌의 한글 활자체도 조합 가능한 글자를 모두 갖추어야 하는 시대가 되었다. 활자체 설계 방식에서 과거처럼 글자 한 자 한 자를 다듬어 내던 설계 방식인 완성형 설계방식으로는 글자수를 모두 수용하면서도 다양한 활자체를 신속하게 만들어 내기는 매우 힘들게 되었다. 이를 해결 할 수 있는 설계 방식은 한글의 모아쓰기 원리를 활용해서 자소를 조합하여 설계하는 조합형 설계 방식이다. 이러한 조합형 설계의 성공적인 결과를 위해서는, 활자체 설계 전문가의 합리적 조합 규칙 설정 및 자소설계와 함께 효율적 전산 프로그램이 뒷받침되어야만 한다.
-
이 글은 요즘들어 쓰임새가 많아지고 있는 탈네모틀 글자의 하나인 세벌체의 출현배경을 밝히고, 세벌체의 우수성과 가치를 정확히 알리고자 하는데에 목적을 두고 있다. 따라서 글의 작성방법도 필자가 직접 개발한 세벌체를 사용하여, 많은 사람들이 직접 눈으로 보고 느끼도록 하였다.
-
후치 표기 내지 한국어와 유사한 구문과 LISP의 함수와 같은 모듈로 이루어지는 초중고교생의 프로그래밍 교육용 언어 PELIHAN을 설계하고, PELIHAN 전용의 구문지향적 지능형 편집기와 인터프리터를 내장한 통합 환경을 구비한 언어 시스템의 프로토타입을 구현하였다.
-
컴퓨터의 보급과 활용이 늘어남에 따라 한글과 영문이 혼합된 문서 작성의 필요성이 계속 증대되고 있다. 컴퓨터 하드웨어 및 소프트웨어에서 사용자의 편리성과 효율성을 최대한 배려하는 "사용자 인터페이스"에 대한 연구가 증대되고 있어서 보다 편리한 한/영 혼용문서의 작성 방법이 요구되고 있다. 키보드를 통한 한/영 혼용문 입력시에 입력된 문서의 내용을 입력 오토마타 및 사전 수록 정보를 토대로 분석하여 자동적으로 한글 또는 영문으로 변환하는 자동토글 시스템 개발에 대해 설명하고, 현재의 시스템이 해결하지 못한 문제점 및 개선 방향을 기술한다.
-
본 논문에서는 한글 입력시 중성 다음에 입력되는 자음이 현재 글자의 종성인지 다음 글자의 초성인지를 예측하는 능력을 가지는 지능형 한글 편집기를 구현하고 성능을 검사하였다. 지능형 한글 편집기는 한글 입력시 어색한 단어를 화면에 나타내지 않고, 마치 사람이 쓰는 것과 같이 화면에 글자를 나타내므로 사용자의 생각과 화면에 나타난 글자와의 차이를 없게 하여 사용자에게 편안함과 자연스러움을 느끼게 하는 한글 편집기이다. 지능형 한글 편집기는 확률, 사전, 조사표, 어미표, 그리고 문법 지식을 이용한다.
-
한국어 문서 작성 지원 툴
${\ulcorner}$ 한림${\lrcorner}$ 은 기계 가독형의 한국어 문서 화일을 해석하여, 문서의 오류 검출을 포함한 문서 작성상의 수정 지침이 될 수 있는 자료를 사용자에게 제공하는 것을 목적으로 하는 시스템이다. 본 시스템에서는 기본적으로 문법 해석이나 사전을 이용하지 않고 알고리즘을 이용한 문자 분석만에 의하여 한국어 문서를 해석한다. 여기에서는 현재 개발중인${\ulcorner}$ 한림${\lrcorner}$ 의 개발 목적, 방침, 구현 방법 등에 대하여 논하고, 부분적으로 완성된 몇 개의 툴을 소개한다. -
컴퓨터용어에 대한 약어들을 기존 사건관리 방법에서 벗어나 컴퓨터에 수록하여, 음성을 포함한 한글 및 영문풀이 조회, 추가등록, 삭제, 수정을 가능케 하여 어휘변화 및 의미파악에 신속히 대처하고, 영문, 한글 단어를 이용한 약어검색 기능과 시스템에서 임의로 문제를 출제, 학습자 수준을 측정해볼 수 있는 컴퓨터 보조학습(CAI)과 knowledge base 교체시 타분야에서 활용이 가능하도록 DB화한 약어 전문가체제로, 업무 활용자(학습자)와 컴퓨터 상호작용에 의한 개인차를 극복할 수 있도록 컴퓨터용어 약어 전자사전을 설계하였다.
-
이 발표에서는 공시적 기술 위주의 대규모 언어사전으로서의 현대한국어 사전을 구상할 때 성찰이 요구되는 서술명사의 처리방안을 생각해 보고자 한다. 보통명사의 한 하류부류인 서술명사로 특징지어지는 명사 약속을 실례로, 그 통사 어휘적 기술을 시도하고, 그 결과를 활용하는, 언어학적으로 근거있는 명사의 사전항목 구성을 검토해 보는 것이다. 약속의 항목에 명시적으로 표시되어야 할 주요 어휘 통사적 속성을 제시하고 또 이들의 사전적 표상을 위한 몇 가지 실제적 제안을 소개하려고 한다.
-
한국어는 다른 언어와는 달리 초성, 중성, 종성의 자소가 모여서 한 음절을 이룬다. 음절을 이루는 자소는 그 발생의 확률적 성질에 따라 확률변수로 간주된다. 음절 안에서 자소간의 발생의 상관관계는 자소간 조건부 확률 및 엔트로피로 표시된다. 음절이 모여서 단어를 이루고 단어를 이루는 음절은 그 발생의 확률적 성질에 따라 확률변수로 간주된다. 한국어 단어안에서 음절간의 발생의 상관관계는 음절간 조건부 확률 및 엔트로피로 표시된다. 수 있다. 그런데 가능한 음절의 종류가 매우 많기 때문에 음절 발생의 상관관계를 표시하는 지표로서 음절간 조건부 확률 대신 초성, 중성, 종성 단위의 조건부 확률을 사용하는 것이 음절간의 발생의 상관관계를 표시하는데 효과적이다. 이러한 한국어의 정보이론적 연구를 위하여서는 기초자료로서 한국어 단어의 빈도분포가 필요하다. 한국어 단어의 빈도분포의 포괄적인 조사는 1956년의 "우리말 말수 사용의 잦기 조사"가 유일한 실정이다. 시간 경과에 따른 한국어의 정보이론적 특성 변화의 분석을 위하여서는 한국어 단어 빈도의 주기적인 조사가 필요하다. 한국어에서 초성, 중성, 종성단위의 정보이론적 연구결과는 한국어 음성인식 및 함성, 자연언어처리, 암호법, 언어학, 음성학, 한국어부호 표준화 연구등에 이용될 것으로 기대된다. 남북한의 언어는 분단이 지속됨에 따라 상호 이질화가 진행되고 있다. 이러한 이질화를 극복하려는 부분적인 노력으로 남북한 언어의 한국어 영문표기의 단일화 등이 있었다. 이러한 노력에 병행하여 남한과 북한의 언어에 대한 정보이론적 비교 연구도 있어야 할 것이다. 정보를 효과적으로 캐싱할 수 있도록 인접한 데이터를 클러스터링해서 브로드캐스팅하여 이동 호스트의 구성 시간(setup time)을 최소화하였다. 그리고, 맨하탄거리(Manhattan Distance)를 사용해서 위치 의존 질의에서 사용하는 데이타를 캐싱하고 질의를 처리하는 방법을 제안한다. 맨하탄 거리를 이용해서 캐싱하면 도로에 인접해서 위치한 데이타를 효과적으로 캐싱할 수 있다. 또한, 거리 계산 방법으로 맨하탄 거리를 사용하면 도심에서 실제 이동 거리와 비슷한 값을 알 수 있고, 직선 거리 계산식에 비해서 계산식도 간단하기 때문에 시스템 계산량도 줄일 수 있다. 기준으로 라이신 부산물은 어분 단백질을 40%까지 대체가 가능하였으며, 아울러 높은 라이신 부산물의 대체 수준에 있어서 사료효율과 단백질 전환효율을 고려한다면 아미노산 첨가(라이신과 아르지닌)와 중화 효과에 좋은 결과가 있을 것으로 사료된다.의한 적정 양성수용밀도는 각고 5~6cm 크기의 경우 10~15개체가 적합하였다. 수증별 성장은 15~20 m 수층에서 빨랐으며, 성장촉진과 폐사를 줄이기 위해서는 고수온이 지속되는 7~10월에는 20~30m수층으로 채롱을 내려 양성하고 그 외 시기에는 15 m층 내외가 좋은 것으로 나타났다. 상품으로 출하 가능한 크기 인 각고 10 cm이상, 전중량 140 g 내외로 성장시 키기까지는 채묘후 22개월이 소요되었고, 출하시기는 전중량 증가가 최대에 이르는 3월에서 4월 중순이 경제적일 것으로 판단된다.er 90 % of good relative dynamic modulus of elasticity due
-
보편적으로 일반 문법의 질서에 부합될 수 있는 자연언어들이 상호 번역이라는 수단을 통해 언어 변환이 가능하다면 이들 언어는 세계어이다. 한국어도 그 하나에 속한다. 본 논문에서는 한국어를 세계어라고 하는 보다 넓은 관점에서 보아 가면서, 이에 따라 고려해야할 문제들을 검토함으로서 한국어 정보처리의 개념을 정립하고, 나아가 세계 속의 한국어 위치를 다듬어 보고자 하는 것이 본 논문의 목표이다.
-
용언 '같다'는 다양한 의미를 지니는데, 그 가운데 [동일]이나 [유사]를 나타내는 '같다' 구문은 '비교'의 논리가 적용되는 문장들로서 문장을 이루는 명사구의 의미 특성, 명사구 사이의 의미관계, 문장 유형등의 요소에 따라 의미 해석이 달라진다. 이 유형의 '같다' 구문은 특정 문형의 실현이 명사구들의 의미 관계에 따라 제약을 받으며, 또 실현되는 경우에도 [동일]이나 [유사]라는 [비교]의 의미를 갖지 못하고 [비유]의 의미를 나타내게 된다. 이러한 의미범주의 변화는, 특정조건하에서의 '비교'가 현실논리에서는 성립할 수 없는 반면 언어논리에서는 수용될 때 나타나는 두 논리간의 괴리를 보완하는 기제인 것으로 생각된다. 한편, [동일]이나 [유사]를 나타내는 '같다'와 [추측] 혹은 [불확실한 단정]을 나타내는 '같다'는 통사구조와 의미해석 논리에서 다른 양상을 보인다. 이들은 항상 '(-ㄴ/ㄹ) 것 같다'와 같은 구성양식을 갖는데, 그럼에도 불구하고 단문구조로 해석되는 것이다.
-
The present study examined the effects of preview sentences and paragraphing in expository text on subjects' recall of the text. College students who participated in this study were randomly assigned to one of four text version groups: the no preview sentences and no paragraphing group, the no preview sentences and paragraphing group, the preview sentences and no paragraphing group, and the preview sentences and no paragraphing group. The result showed no significant effects of preview sentences and paragraphing. However, students' learning ability being considered, significant interaction effects were found. Although subjects with high learning ability recalled well regardless of whether or not passage was paragraphed, subjects with low learning ability recalled more in paragraphing condition than no paragraphing condition. The implication of these results is discussed.
-
두 개의 실험을 통하여, 시간경과에 따른 한글 다의 단어의 의미처리과정을 알아보고자 하였다. 실험1에서는 의미를 편향시키는 맥락이 없는 상황에서 다의어의 의미처리를 알아보고자 하였는데, 결과는 사용빈도가 높은 의미의 활성화 촉진의 정도가, 빈도가 낮은 의미에 비하여 크고 오래 지속됨을 보여주었다. 실험 2에서는 다의어의 의미를 하나의 의미로 편향시키는 맥락을 사용하였는데, 맥락에 부합하는 의미의 반응시간이 부합하지 않는 의미에 비하여 빨랐다. 그리고 처음에는(SOA가 짧을 때) 일차 의미와 이차 의미의 활성화가 동시에 이루어지지만, 시간이 경과할수록 일차 의미의 활성화촉진은 이차의미에 비하여 크고 오랫동안 유지됨을 보여주었다.
-
낱자 또는 음절들을 매우 짧게 제시하고 차폐로 지운 후 두 낱자 중하나를 선택하는 과제 (Reicher, 1969)를 사용하여 음절 맥락에서 낱자 지각에 영향을 주는 변수들과 그 배후 지각과정들을 검토하였다. 자모 조합유형이 음절 내 낱자의 정체 파악에 체계적으로 영향을 주고 있었고, 예상과는 달리 음절 내의 낱자들이 단독으로 제시되는 낱자 보다 잘 파악되지 않는 음절열등효과가 일관되게 관찰되었다. 본 연구의 세 실험 결과들을 상호작용활성화 모형과 초보지각자-기억자 모형에 비추어 논의하였다.
-
본 연구에서는 이해능력수준에 따른 억압기제의 효율성 차이를 대용어 참조 과정을 통해 검증하였다. 실험 1에서는 단어재인과제를 사용하여 이해능력에 따른 가능한 참조어의 활성화 차이를 살펴 보았다. 그 결과 낮은 수준의 이해자는 높은 수준의 이해자에 비해 가능한 참조어 중 문장맥락에 맞는 적절한 참조어와 함께 맥락에 맞지 않는 부적절한 참조어의 활성화도 유지하고 있는 경향이 있었다. 실험 2에서는 검사단어의 맥락적절성 판단과제를 실시하였는데 낮은 수준의 이해자는 높은 수준의 이해자에 비해 부적절한 참조어를 부정하는데 반응시간이 오래 걸렸다. 이 결과들은 낮은 수준의 이해자가 덜 효율적인 억압기제를 가졌다는 가설을 지지하는 결과로 논의되었다.
-
본 논문은 관광정보검색용 한국어 자연언어 질의 해석 시스템의 모델 정립 및 구현에 대한 것이다. 본 자연언어 질의 해석 시스템은 질의로 부터 정보 검색 시스템의 검색어들을 추출한다. 이를 위하여 1만 단어 수준의 중형사전을 구축하였으며, 불용어 사전, 전거어 사전, 유사어 사전, 복합명사 사전을 구축하였다. 사전의 어휘를 추출하기 위해서 한국어 대화체 문장에 대한 자료수집과 분석을 하였으며, 관광 정보 검색 시스템의 텍스트를 분석하였다. 200여 자연언어 질의 문장으로 실험한 결과는 비교적 좋았다.
-
문서 속에서 나타나는 철자 오류는 맞춤법을 몰라서 잘못 쓴 경우와 자료 입력 과정에서 잘못 입력된 경우로 볼 수 있다. 이들 각각의 오류들에 대해 맞춤법 및 표준어 규칙을 비롯하여 한국어 자료의 통계적 분석을 통한 교정 기법을 제공하고자 한다. 본 논문은 철자 검사기가 틀리다고 판단한 오류 어절로부터 올바른 어절을 찾아서 교정해 주고 철자가 틀린 원인을 알려줄 수 있는 도움말 기능을 제공하는 철자 교정 시스템을 구현하고자 한다.
-
본 논문에서는 자연언어 처리를 기반으로 한 질의응답 시스템을 설계하며 그 대상을 호텔 예약 시스템으로 한다. 시스템은 크게 언어 해석부, 문맥 처리부, 화제 처리부 및 한국어 생성부로 구성한다. 언어 처리부에서는 단일화 문법을 적용하여 사용자가 입력한 질의문을 해석하며 그 해석결과로부터 이 후 질의응답에 사용되는 정보들인 술어, 각 명사구들의 의존 관계치 및 의미 제약치를 얻어 낸다. 문맥처리를 수행하여 생략문 등에 의해 결핍된 정보들을 추출함으로서 정보의 손실을 보완한다. 이 정보들을 이용하여 사용자와 시스템간의 자연스러운 대화를 진행하기 위한 화제처리를 수행하며, 최종적으로 화제 처리부에서 파악한 화자의 의도를 기초로 사용자가 요구한 정보를 제공하고 계속된 대화진행을 위해 적절한 한국어를 생성해 주는 한국어 생성부를 거치게 된다. 본 논문에서는 호텔 예약이라는 정해진 영역하에서 자연언어처리에 의해 추출한 술어, 각 명사구들의 의존관계치 및 의미제약치 정보들을 이용하여 문맥처리와 화제처리를 수행함으로서 더욱 효율적인 질의응답 시스템을 구현할 수 있음을 보인다.
-
본 논문은 연합 작전을 위한 군 자동화 시스템에서의 기계번역에 대하여 설명한다. 연합작전은 단일한 임무의 수행을 위하여 공동 행동을 취하는 둘 이상의 연합국 부대에 의하여 실시되는 작전이며, 작전 구성원들이 사용하는 언어는 한국어와 영어 등 2개 국어 이상을 동시에 사용하고 있으므로, 상호간의 의사소통을 원활히 하기 위해서는 정확한 번역시스템이 필요하다. 현재 사용중인 군 자동화 시스템에서 기계번역의 개발과 시험 내용을 사용자의 요구사항, 시험 항목 및 현 기능을 중심으로 설명한다. 또한, 번역 결과의 평가에 대해 설명하고 향후의 기능 향상 요구사항 및 예정사항을 제시한다.
-
변환 방식의 기계 번역에서 가장 중요한 부분은 변환 단계이며 여기서 변환사전이 매우 중요한 역활을 담당한다. 그러므로 인간이나 기계 번역기에 의해 생성되는 영어 문장은 이들이 가지고 있는 동사 사전의 내용과 효율적인 생성 알고리즘에 의해서 문장의 수준이나 정확성이 결정된다. 이렇게 생성된 문장을 검사하는 기존의 영어 문법 검사기들은 영어권의 사람들을 위주로 만들어졌기 때문에 문법적인 중요한 규정들을 포함하지 않고 있어서 비영어권의 사용자가 이용하기에는 부적절하다. 본 논문에서는 인간이 번역하였거나 기계 번역기에 의해 생성된 문장을 검사하고 교정할 수 있도록, 확장된 동사형을 기반으로 한 동사 사전을 제안하고 이를 이용한 영어 문장 검사기를 구현한다.
-
복합어는 여러개의 단어가 하나의 의미론 나타내는 단어를 말한다. 이 논문에서는 번역시 구성단어들의 의미의 합이 아닌 다른 또 하나의 의미를 나타내는 단어를 대상으로 한다. 이러한 복합어는 구문해석 단계에서 많은 애매성의 원인이 되며, 유형에 따라 숙어 처럼 새로운 의미로 항상 같이 쓰이는 복합어와 복합어의 형성이 복잡하여 규칙으로서 단어를 이해할 필요가 있는 단어로 구분할 수 있다. 첫번째 유형은 단어의 형성이 단순하여 하나의 사전 엔트리로 등록될 수 있다. 이때 이들 복합어가 가지는 개별 어휘 규칙을 같이 사전에 등록하여 사전을 효과적 이용할 수 있다. 두번째 유형은 규칙에 의한 처리를 하여야 한다. 이러한 복합어에 대한 인식을 구문분석이전에 행함으로서 적은 노력으로 복합어로 인한 전체 문장의 애매성을 감소시키고, 문장내 단어의 수를 감소시킴으로서 전채 번역시스템의 효율을 증대하며, 복합어의 처리는 번역문을 자연스럽게 생성하는 데 큰 효과를 나타낸다.
-
일반적으로 한글 인식 과정은 많은 후보들을 생성하며 이 후보들로부터 정확한 인식결과를 얻고 복잡도를 줄이기 위해서는 효과적인 한글 표현과 탐색기법이 요구된다. 이런 목적을 위하여 본 논문에서는 한글에 적합한 구조적 정보들을 4단계 계층적 형태로 표현한다. 그리고 이 정보들을 근거로 후보 문자의 생성과 탐색을 진행하며 전체적으로 최적우선탐색을 이룬다. 인식실험은 다양한 필자들을 대상으로 한글 잦기 상위 422자로 실험한 결과 평균 86% 인식률을 얻을 수 있었다.
-
본 연구는 한글 글자를 지각하는데 있어서 인식의 초기 단계에 사람들이 글자의 유형을 처리하는지 알아보기 위하여 시행되었다. 글자인식의 초기 단계에서 유형 분류를 한다는 것은 이미 인공시각 연구자들에 의해 시뮬레이션을 통해 검증된 바 있으나, 그것이 심리학적으로 실재성을 가지는지에 대한 검토는 없었으므로 본 연구를 실시하게 된 것이다. 먼저 예비실험을 통해 본 실험에서 쓸 자극제시시간을 구했으며, 실험은 한글 글자 중 낱자 수가 두 개인 유형 1, 2 의 글자를 자극으로 쓰는 경우와, 낱자 수가 세개인 유형 3, 4, 5 의 글자를 자극으로 쓰는 경우를 나누어서 실시하였다. 실험 1 과 실험 2 의 결과는 모두 가설을 강력히 지지하는 것으로 나왔다. 즉 자극제시시간을 역치하로 했을 경우 글자의 정답율과 유형의 정답율을 비교해 보았을 때 유형의 정답율이 유의하게 높았으며, 이는 아직 글자의 의미처리가 일어나기 전인 인식의 초기 단계에서 이미 글자의 유형에 대한 처리가 일어났음을 시사해 주는 것이다.
-
손으로 쓴 글씨는 인쇄체와 달리 많은 변형이 있다는 점이 한글 필기 인식에서 가장 큰 장애물로 통한다. 본 논문에서는 이점을 해결하면서 필기에 대한 제한을 대폭 줄인 온라인 한글 인식 방법을 제시하고자 한다. 봉넷(BongNet)은 온라인 한글 필기를 인식하기 위한 네트워크 모델이다. 글씨 인식에 들어가는 여러가지 정보를 네트워크라는 틀 안에 표현한 것 인데, 기본적으로 네트워크 구조 자체가 표현하는 정적 글자 구조 정보와, 글꼴에 따라 달라지는 것으로써 노드간 확률적 이동을 나타내는 동적 정보를 포함한다. 본 모델에 따르면 한글 인식은 네트워크 안에서 최적 경로를 따라 초, 중, 종성 자소열을 찾는 문제로 변환된다. 동적 프로그래밍 기법을 이용하여 그 경로를 찾는 인식 알고리즘은 입력 데이타의 양에 정비례하는 효율성을 갖는다.
-
문자인식에 있어서 인식율을 높이기 위한 후처리의 한 방법으로서, 문법 정보를 이용하는 후처리를 제안하고자 한다. 즉, 문자 인식 시스템에 의해 인식된 국어문에 대해서 오인식된 문자를 포함하는 어절을 검출하고, 오인식된 문자의 적절한 후보를 선정하여 그에 따라 자동수정을 행하는 것을 전채 후처리 과정으로 전제한다. 본 논문에서는 형태소 분석을 통해 오인식된 부분을 검출하는 과정을 보임으로써 문자인식에 있어서 문법 정보를 이용하는 후처리의 가능성과 그 유효성을 보이는 것을 목적으로 한다.
-
본 논문은 한글 주소의 오인식 수정에 관한 연구로서, 필기자의 다양한 필기 형태와 입력 장치의 특성으로 인하여 문자 인식 단계에서 발생할 수 있는 혼동을 줄이고 오류를 효율적으로 수정하는 후처리 알고리즘을 소개한다. 특히, 주소의 행정 구역부에 대해서는 정합해야 할 문자 모델의 범위를 줄여줌으로써 높은 인식률과 처리 속도를 기록하였으며, 문자 인식의 결과에 임계값과 백트랙킹 방법을 도입한 후처리 알고리즘을 적용하여 더욱더 높은 인식률을 나타낼 수 있었다. 번지부와 건물부에 대한 오인식도 제안된 각각의 알고리즘을 적용함으로써 효과적으로 수정할 수 있었다. 우리나라의 25,000여 행정 구역을 바탕으로 작성 가능한 주소들 중에서 임의의 150개 주소 데이타에 대하여 제안된 후처리 방법을 포함한 다양한 후처리 방법으로 실험한 결과, 행정 구역부에 대하여 98%이상의 높은 인식률을 보임으로써, 제안된 후처리 알고리즘이 효과적임을 알 수 있었다.
-
한글 문자인식 시스템을 개발하기 앞서 생각해야 할 것이 인식실험에 사용될 문자 데이타를 수집하는 것이다. 이 논문에서는 연구 개발자들에게 문자인식 실험에 필요한 충분한 데이타를 제공하며 필기체 문자 데이타를 표준화하여 문자인식 시스템 상호간의 성능을 객관적으로 평가하기 위하여 한글 필기체 문자 데이터베이스 PE92를 개발하였다. 여기서는 PE92 데이타베이스의 소개로서 먼저 PE92를 수집하는데 있어 고려사항들, 즉 필기자, 수집문자의 수, 수집용지의 규격, 데이타베이스의 저장, 데이타의 압축에 대하여 알아본다. 다음 PE92 데이타베이스의 규격을 알아본다.
-
고품위 입출력 장치의 급속한 발달과 전자 출판 시스템의 출현은 더 다양한 서체를 요구하게 되었다. 컴퓨터에서 사용되고 있는 한글 서체는 명조, 고딕체를 제외하고는 주로 장식용 폰트를 만들어 사용하고 있다. 본 논문에서는 Cubic B-Spline 곡선을 이용하여 다양한 필기체 폰트를 구현하였고, 필기체가 가지는 특성(날림의 정도, 글자의 기울이기 정도, 각 음소의 크기, 각 글자의 크기의 균일성 등)에 따라 인자를 부여하여 개별화되고 사실적인 폰트를 생성하였다. 각 인자의 조합은 암호화되어 각 개인의 폰트로 부여된다. 즉, 개인의 고유 폰트는 폰트 암호(password)로 부여되고, 제어인자는 폰트암호의 해쉬값에 의해 선택되며, 사용자들로부터 이 제어인자들을 숨기게 되면 각 사용자들의 폰트는 유일하고, 안전하게 되므로, 일정정도의 안정성이 보장된다고 보여진다. 그리고 본 연구에서 구현된 폰트는 한글 필기체 문자인식의 정도를 측정하는 다양한 데이타를 제공하는 데에도 의미가 있다.
-
한글의 신속하고 정확한 정보전달 기능을 유지 발전시킴과 동시에, 정보 전달의 목적 및 효율성을 높이기 위하여, 인간심리에 직접 영향 미치는 시각적 이미지를 지니는 조형적 문자의 서체 및 기능 개발에 필요한 현행 한글서체들의 시각적 이미지에 대한 분석적 연구를 시도하였다. 대표적인 24개의 현행 한글서체에 대한 이미지를 표본조사 및 수치분류적 기법에 의한 이미지 특성을 분석하였다. 연구결과, 현행 한글서체는 크게 5개의 그룹으로 구분되며, 예서체는 현행 한글서체 중에서 가장 독특하고 집중된 이미지를 지닌 서체로 나타났다. 한글서체 개발은 수치적 분석에 의하여 방향정립 및 높은 예측성을 지닐 수 있으며. 목적지향적인 폰트개발 및 균형있는 서체운용 체계의 운용에 의하여 극대화될 수 있다.
-
연결주의적 선회'(the connectionistic turn)를 말할 만큼 학문적 방법론과 이론적 관점에 중요한 변화를 가져오고 있는 연결주의를 철학에서의 원자주의와 대비시켜서 고찰한다. 특히 원인론, 실재론 및 의미론의 문제에 관하여 연결주의적 관점이 어떤 의미를 갖는지 검토해 본다.
-
컴퓨터의 언어이해 가능성을 반박하는 주된 근거는 형식적 기호들을 처리하는 프로그램이 의미론을 다룰 수 없다는 것이다. 그러나 인과적 계산이론에 따르면 컴퓨터 프로그램이 순전히 구문론적인 것은 아니고 컴퓨터 내부의 기호적 표상의 처리과정에서 의미론적인 지시와 해석이 일어난다고 할 수 있다.
-
컴퓨터를 이용하여 자연언어를 처리하려는 연구가 진행되고 있다. 언어가 사고와 밀접한 관계에 있다는 점에서 이러한 연구가 성공한다면 인공지능의 발전과 더불어 인간의 마음에 대한 이해의 폭을 넓히게 될 것이다. 이글은 이러한 연구와 관련하여 컴퓨터에 의한 자연언어 이해의 가능성을 다루고 있다. 먼저 그러한 이해가 불가능하다는 써얼의 비판을 시발로 해서, 써얼에 대한 라파포트의 재반박을 검토할 것이다. 라파포트는 자신의 인공지능 프로그램과 사고실험 등을 통해서 가능성을 인정한다. 그의 주장의 핵심은 컴퓨터가 자연언어를 이해하는데 있어 구문론적 이해만으로도 충분하다는 것이다. 이러한 주장은 기호학적 관점에서 볼 때 성립될 수 없다고 비판된다. 인간이나 컴퓨터가 자연언어를 이해하기 위해서는 언어와 그 지시 대상, 그리고 언어의 사용자간의 관계를 고려하는 기호학적 관점이 요구된다. 그결과 컴퓨터에 의한 자연언어 이해의 가능성에는 한계가 있다는 결론에 이르게 된다.
-
인간의 가장 익숙한 정보교환 수단인 음성을 기계가 인식하게 함으로써 모든 기계를 말로써 작동시키고자 하는 것은 인간의 오랜 꿈이었다. 최근 컴퓨터 기술과 음성처리 기술의 급속한 발달에 힘입어 그 꿈은 현실로 다가오고 있다. 현재 고립어 인식은 충분히 실용화될 수 있는 단계에 들어 섰으며 이제 연속어 인식 내지 연속어 이해에 연구가 집중되고 있다. 인간과 기계를 인터페이스하는 언어의 전위레벨로서 날로 그 중요성이 부각되고 있는 음성인식 기술의 현황을 살펴보고 그것의 미래를 전망해 본다.