• 제목/요약/키워드: 문장 유형

검색결과 239건 처리시간 0.025초

형태소 및 구문 모호성 축소를 위한 구문단위 형태소의 이용 (Using Syntactic Unit of Morpheme for Reducing Morphological and Syntactic Ambiguity)

  • 황이규;이현영;이용석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권7호
    • /
    • pp.784-793
    • /
    • 2000
  • 기존의 한국어 형태소 해석은 한국어의 교착어 특성상 다양한 형태론적 모호성을 가진다. 이러한 형태론적 모호성은 많은 구문 모호성을 만들어 내어 올바른 의미를 가지는 파스트리의 선택을 어렵게 한다. 한국어에서 이런 형태론적 모호성의 대부분이 보조용언이나 의존 명사와 관련이 있다. 보조용언이나 의존명사는 주위의 형태소들과 강한 결합 관계를 가지고 있으며, 대부분 자립성이 없는 기능형태소이다. 결합된 형태소들은 문장 내에서 하나의 기능적 역할이나 구문적 역할을 수행한다. 우리는 품사 태깅된 20 만 어절 크기의 말뭉치로부터 이 형태소열을 찾아 이를 3가지 유형으로 분류하였다. 그리고, 이를 구문 형태소로 정의하고 구문 형태소를 구문 분석의 기본 입력 단위로 간주하였다. 본 논문에서는 구문 형태소가 아래와 같은 문제의 해결에 있어서 효율적인 방법임을 제안한다: 1) 형태소 해석의 축소, 2) 구문 해석 도중 불필요한 부분 파스트리의 배제, 3) 구문 모호성의 축소. 마지막으로, 실험 결과를 통해 구문단위 형태소가 형태소 및 구문 모호성을 축소하기 위해 반드시 필요함을 보인다.

  • PDF

한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 (Named Entity Recognition and Dictionary Construction for Korean Title: Books, Movies, Music and TV Programs)

  • 박용민;이재성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.285-292
    • /
    • 2014
  • 개체명 인식은 정보검색 시스템, 질의응답 시스템, 기계번역 시스템 등의 성능을 향상시키기 위하여 사용된다. 개체명 인식은 일반적으로 PLOs(인명, 지명, 기관명)을 대상으로 하며, 주로 미등록어와 고유명사로 이루어져 있기 때문에 고유명사나 미등록어는 중요한 개체명 후보로 쓰일 수 있다. 하지만 도서명, 영화명, 음악명, TV프로그램명과 같은 제목 개체명은 PLO와는 달리 단어부터 문장까지 매우 다양한 형태를 지니고 있어서 개체명 인식이 쉽지 않다. 본 논문에서는 뉴스 기사문을 이용하여 제목 개체명을 빠르게 인식하고 자동으로 사전을 구축하는 방법을 제안한다. 먼저 특수기호로 묶인 어절을 추출하고, 주변 문맥 단어 및 단어 거리를 이용하여 SVM으로 제목 후보들을 추출하였다. 이렇게 추출된 제목 후보들은 상호 정보량을 가중치로 SVM을 이용해 제목 유형을 분류하였다.

철자오류에 기인한 가의미 오류의 검출 및 교정 방법 (A Method for Detection and Correction of Pseudo-Semantic Errors Due to Typographical Errors)

  • 김동주
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권10호
    • /
    • pp.173-182
    • /
    • 2013
  • 전자 문서의 초안 작성과정에서 추가되는 철자오류는 다른 유형의 오류보다 압도적으로 높은 비율을 차지한다. 입력 실수로 인한 이들 오류는 결과적으로 여전히 철자오류일 수도 있지만 상당수는 구문오류나 의미오류로 발전한다. 이러한 오류들 중 철자오류에서 발전된 가의미 오류는 순수 의미오류에 비해 문장 내에서 주변 단어의 의미에 대해 두드러진 상이성을 갖게된다. 따라서 이러한 의미 오류는 그것이 가지는 두드러진 문맥 상이성으로 인해 간단한 동시발생 빈도에 기초한 알고리즘으로 검출 및 교정이 가능하다. 본 논문에서는 이러한 오류들을 검출하고 교정하기 위한 동시발생 빈도에 기초한 알고리즘을 제안한다. 제안하는 방법에서 동시발생 빈도는 의존 구조상에서 직접 의존관계에 놓인 단어만을 대상으로 계산하며, 가의미 오류 여부를 판단하기 위해서 코사인 유사도 측정 방법을 사용한다. 제시하는 실험으로부터 제안한 방법은 전체 맞춤법 검사기 검출율을 약 2~3% 수준까지 향상 시킬 수 있을 것으로 예측하였다.

조어론에 있어서의 어휘연습과 교수법 제언 (Wortschatzarbeit in der Wortbildung und ihre didaktische $Vorschl\"{a}ge$)

  • 장기성;정현숙
    • 한국독어학회지:독어학
    • /
    • 제3집
    • /
    • pp.233-252
    • /
    • 2001
  • 1970년이래 외국어학습 및 교수법에 있어서 어휘에 관련된 문제들에 많은 관심과 그 중요성이 인식되고있다. 특히 Fleischer/Buz (1992)등에 의한 당해 영역의 연구물 뿐 아니라, 전문서적 및 어학 자료(교재)등에서도 이러한 중요성이 강조되어 왔음을 알 수 있다. Fleischer등은 조어규칙의 개념과 조어모델을 규정하는 근거들로 생산성 Produktivitat, 용인성 Akzeptabilitat, 조어참여성 Aktivitat등 중요한 매개요인으로 간주하고 있으며 $G\"{o}tze/ Hess-Luttich$ (1999)등의 학자들은 어휘체계에서 두 개 이상의 구성성분들이 결합하여 당해 시대의 시대정신이나 시대상에 부합되는 신조 어휘들을 생성하며, 또한 그 사회의 정보화와 기술화에 이바지하며, 이를 통해서 전문어의 생산력을 한층 높혀 주는 통로로 작용함을 주장한바 있다. 본고에서는 조어론의 이러한 기본원리나 개념들에 입각하여 독일어 수업에서 목표어의 습득에 관여적인 역할을 수행하는 조어모델, 즉 합성어와 파생어를 형용사와 명사의 층위에서 구체적으로 분석하고 기술했다. 예컨데, 합성어에 있어서 접두사와 접미사, 조어의 유형 가운데 축약어, 그리고 외래어 기저와 고유어 접미사 및 접두사, 고유어기저와 외래어접미사(접두사) 뿐만 아니라, 의미론적 관점에서 본 합성어의 형태, 합성 연결소의 형태와 기호의 사용, 명사적 파생어에서 고유어접미사(접두사), 축약조어와 축약어 단어형성, 형용사조어의 특성, 명시적파생 가운데 고유어(외래어) 접미사(접두사) 등이 어휘생성과 어휘신장의 관점에서 교수법의 적용가능성이 논의되었다. 결론부에서는 외국어를 습득하고자하는 학습자에게 일방적이고 획일적인 암기식 위주의 어휘학습방법에서 벗어나, 목표어가 요구하는 새로운 어휘를 획득하는데 비교적 용이하며 또한 체계적으로 습득 할 수 있도록 인지론에 기대어 텍스트, 문장, 어휘영역 등이 투입되어 적용되었으며, 이에 상응되게 구체적인 몇몇 방안들이 제시되었다. 학습자들이 텍스트를 읽고 중심내용을 찾아내며, 단락을 구획하고 또한 체계를 파악하는데 있어서 어휘연습은 외국어 교수법 측면에서도 매우 관여적이며 시의적절한 과제라 생각된다.

  • PDF

특허 정보 검색을 위한 대체어 후보 추출 방법 (Extracting Alternative Word Candidates for Patent Information Search)

  • 백종범;김성민;이수원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권4호
    • /
    • pp.299-303
    • /
    • 2009
  • 특허 정보 검색은 연구 및 기술 개발에 앞서 선행연구의 존재 여부를 확인하기 위한 사전 조사 목적으로 주로 사용된다. 이러한 특히 정보 검색에서 원하는 정보를 얻지 못하는 원인은 다양하다. 그 중에서 본 연구는 키워드 불일치에 의한 정보 누락을 최소화하기 위한 대체어 후보 추출 방법을 제안한다. 본 연구에서 제안하는 대체어 후보 추출 방법은 문장 내에서 함께 쓰이는 단어들이 비슷한 두 단어는 서로 비슷한 의미를 지닐 것이다라는 직관적 가설을 전제로 한다. 이와 같은 가설을 만족하는 대체어를 추출하기 위해서 본 연구에서는 분류별 집중도, 신뢰도를 이용한 연관단어뭉치, 연관단어 뭉치간 코사인 유사도 및 순위 보정 기법을 제안한다. 본 연구에서 제안한 대체어 후보 추출 방법의 성능은 대체어 유형별로 작성된 평가지표를 이용하여 재현율을 측정함으로써 평가하였으며, 제안 방법이 문서 벡터공간 모델의 성능보다 더 우수한 것으로 나타났다.

가상현실 기반의 인공지능 영어회화 시스템 (English Conversation System Using Artificial Intelligent of based on Virtual Reality)

  • 천은영
    • 한국융합학회논문지
    • /
    • 제10권11호
    • /
    • pp.55-61
    • /
    • 2019
  • 외국어 교육을 실현하기 위하여 기존의 다양한 교육 매체들이 제공되고 있지만, 교구 및 매체프로그램에 대한 비용이 많이 들고 실시간 대응력이 떨어지는 단점이 존재한다. 이 논문에서는 VR과 음성인식을 기반으로 한 인공지능 유형의 영어회화 시스템을 제안한다. 시스템 구축을 위해 Google CardBoard VR과 Google Speech API를 이용하며 가상현실 환경 제공 및 대화를 위한 인공지능 알고리즘을 개발하였다. 제안하는 음성인식 서버시스템에서는 사용자가 발화한 문장을 단어 단위로 분리해 데이터베이스에 저장된 데이터 단어들과 비교하여 확률적으로 가장 높은 것을 답으로 제공할 수 있으며 사용자들이 가상현실의 인물과 적절한 대화 및 응답이 가능하다. 대화가 제공되는 기능은 상황별 대화와 주제에 독립적이며, AI 비서와 나눈 대화 내용을 사용자 시스템에서 실시간 확인이 가능하도록 구현하였고 실험을 통하여 음성인식에 대한 응답비율을 확인하였다. 이 논문에서 제안하는 가상현실과 음성인식 기능을 접목한 시스템을 통하여 4차 산업혁명에 관련한 가상교육 콘텐츠 서비스 확장에 이바지할 것을 기대한다.

현대 러시아 광고언어에 있어서의 '언어유희' 현상에 대한 연구 (A Study on Phenomenon 'Play of Words' in Modern Russian Advertising Language)

  • 김성완
    • 비교문화연구
    • /
    • 제42권
    • /
    • pp.241-260
    • /
    • 2016
  • 이 글의 목표는 현대 러시아 광고언어에 있어서 어떤 유형의 '언어유희'(игра слов) 현상이 나타나고 있으며, 이는 광고의 어떤 특징 때문에 연유하는지에 대해 밝히는 것이다. 이러한 목표를 달성하기 위해 광고의 정의 및 광고언어의 특징을 살펴보고, 광고의 효과를 극대화하기 위해 언어를 어떻게 이용하고 있는지를 밝힐 것이다. 광고 연구에 있어서 필요한 학문은 언어학을 비롯하여 경제학, 심리학, 사회학, 마케팅, 문학, 예술학, 음악 등으로 아주 다양하다. 이는 현대의 광고가 화면과 소리, 그리고 텍스트가 결합되는 기호학적 대상이기 때문이다. 본 연구에서는 비록 이렇게 다양한 부분을 한꺼번에 연구할 수 없지만 광고 텍스트들에서 나타나는 언어유희 현상을 중심으로 광고 기획자와 소비자가 인식하는 언어유희 현상에 대한 인식에 대해 밝히고자 한다. 광고는 언어학자들에 의해 그 해당 언어를 파괴하는 주범으로 인식되어 온 측면도 있는데, 이는 광고에 사용되어지는 비문법적인 문장 생성이나 비문법적인 단어 표현, 외국어의 남발 및 잘못된 외래어 표기, 비속어 및 은어의 잦은 사용, 맞춤법 등 어문규범의 파괴가 그 원인이다. 이러한 것들이 광고의 어떤 목적을 위해 이루어지는 것인지 밝히고자 한다.

챗봇 데이터에 나타난 우울 담론의 범주와 특성의 이해 (Understanding the Categories and Characteristics of Depressive Moods in Chatbot Data)

  • 진효진;정찬이;백금희;차지영;최정회;차미영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권9호
    • /
    • pp.381-390
    • /
    • 2022
  • 자연어처리 기술과 비대면 문화의 확산과 더불어 챗봇의 사용 증가세가 가파르며, 챗봇의 용도 또한 일상 대화와 소비자 응대를 넘어서 정신건강을 위한 용도로 확장하고 있다. 챗봇은 익명성이 보장된다는 점에서 사용자들이 우울감에 관해 이야기하기 적합한 서비스이다. 그러나 사용자가 작성한 문장들을 분석해 우울 담론의 유형과 특성을 파악하는 연구들은 주로 소셜 네트워크 데이터를 대상으로 했다는 한계점이 존재하며, 실제 환경에서 사용되는 챗봇과 상호작용한 데이터를 분석한 연구는 찾아보기 힘들다. 이 연구에서는 챗봇-사람의 상호작용 데이터에서 무작위로 추출한 '우울'과 관련된 대화 데이터를 토픽 모델링 방법과 텍스트마이닝 기법으로 분석하여 채팅에서의 우울 관련 담론의 특성을 파악하였다. 또한, 챗봇에서 빈번히 나타나는 '우울' 담론의 범주와 트위터 '우울' 담론의 범주의 차이점을 비교하였다. 이를 통해 챗봇 데이터의 '우울' 대화만의 특징을 파악하고, 적절한 심리지원 정보를 제공하는 챗봇 서비스를 위한 시사점과 향후 연구 방향에 대해 논의한다.

개인정보 비식별화를 위한 개체명 유형 재정의와 학습데이터 생성 방법 (Re-defining Named Entity Type for Personal Information De-identification and A Generation method of Training Data)

  • 최재훈;조상현;김민호;권혁철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.206-208
    • /
    • 2022
  • 최근 빅데이터 산업이 큰 폭으로 발전하는 만큼 개인정보 유출로 인한 사생활 침해 문제의 관심도 높아졌다. 자연어 처리 분야에서는 이를 개체명 인식을 통해 자동화하려는 시도들이 있었다. 본 논문에서는 한국어 위키피디아 문서의 본문에서 비식별화 정보를 지닌 문장을 식별해 반자동으로 개체명 인식 데이터를 구축한다. 이는 범용적인 개체명 인식 데이터에 반해 비식별화 대상이 아닌 정보에 대해 학습되는 비용을 줄일 수 있다. 또한, 비식별화 정보를 분류하기 위해 규칙 및 통계 기반의 추가적인 시스템을 최소화할 수 있는 장점을 가진다. 본 논문에서 제안하는 개체명 인식 데이터는 총 12개의 범주로 분류하며 의료 기록, 가족 관계와 같은 비식별화 대상이 되는 정보를 포함한다. 생성된 데이터셋을 이용한 실험에서 KoELECTRA는 0.87796, RoBERTa는 0.88575의 성능을 보였다.

  • PDF

미디어 산업 AI 활용성에 관한 고찰 : 저널리즘 분야 적용의 주요 쟁점을 중심으로 (Research on Utilization of AI in the Media Industry: Focusing on Social Consensus of Pros and Cons in the Journalism Sector)

  • 한정현;유하진;강민준;이한진
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.713-722
    • /
    • 2024
  • 본 연구는 인공지능(AI) 기술의 발전이 저널리즘 분야에 가져온 혁신과 변화를 조명하고, 이로 인해 발생하는 주요 윤리적 쟁점들을 검토하여, 저널리즘 분야에서 AI의 활용성을 논의한다. 블룸버그, 가디언, 월스트리트저널(WSJ), 워싱턴포스트(WP), 뉴욕타임즈(NYT) 등 전 세계 언론 및 방송사들은 취재 데이터 분석, 기사문장 생성, 뉴스제작에 이르기까지 다양한 방면에서 AI를 적극 활용 중이다. 이에 본 논문은 국내외 주요 미디어AI 서비스 유형과 특징을 속도와 규모, 다양성, 가치향상, 정확성 측면에서 종합적으로 분석하여 AI 저널리즘의 영향력과 발전 가능성을 평가한다. 나아가 균형 잡힌 시각을 유지하며 AI 도입의 기술적, 경영적, 법적 주요 쟁점들을 파악하고, 알고리즘 편향과 필터버블 등 첨단기술의 발전이 저널리즘 영역에 가져오는 도전을 체계적으로 준비하고자 한다. 마지막으로 AI와 미디어 산업의 상호지향적인 발전 방향을 모색하기 위해 사회적 합의를 통한 전향적 AI리터러시 원칙과 윤리적 가이드라인 개선의 필요성을 제언하며, 저널리즘의 본질적 가치와 임무를 조망한다.