• 제목/요약/키워드: 어휘정보

검색결과 1,062건 처리시간 0.027초

한국어 특성을 고려한 감성 분류 (Sentiment Classification considering Korean Features)

  • 김정호;김명규;차명훈;인주호;채수환
    • 감성과학
    • /
    • 제13권3호
    • /
    • pp.449-458
    • /
    • 2010
  • 다양한 분야에서 인터넷 상의 방대한 양의 문서 혹은 리뷰로부터 유용한 정보를 얻고자 하는 노력이 높아짐에 따라 문서 혹은 리뷰 상의 생각 및 의견에 대한 자동 분류 연구의 필요성이 대두되었다. 이러한 자동분류를 감성 분류라 하며, 감성 분류 연구는 크게 세 가지 단계를 가지는데, 첫 번째로 주관적인 생각이나 느낌을 표현하는 문장을 추출하기 위한 주관성 분류 연구, 두 번째로 문서 또는 문장을 긍정, 부정으로 나누는 극성 분류 연구, 그리고 세 번째로 문서 또는 문장이 어느 정도의 주관성 및 극성을 갖는지 그 강도를 구하는 강도 분류 연구이다. 최근 의견 분류에 대한 연구들을 살펴보면, 분류를 위해 자질(Feature)로서 단일어(Single word)가 아닌 2개 이상의 N-gram 단어, 어휘 구문 패턴 및 통사 구문 패턴 등을 사용하는 것을 확인할 수 있다. 특히, 패턴은 단일어나 N-gram 단어에 비해 유연하고, 언어학적으로 풍부한 정보를 표현할 수 있기 때문에 이를 이용한 많은 연구가 이루어져 왔다. 그럼에도 불구하고, 이러한 연구들은 주로 영어에 대한 연구들이었으며, 한국어에 패턴을 적용하여 주관성을 갖는 문장을 분류하거나, 극성을 분류하는 연구들은 아직 미비하다. 한편, 한국어는 용언의 활용이 발달되어 있어, 어미의 변화가 다양하며, 그 변화에 따라 의미가 미묘하게 변화한다. 그러나 기존 한국어에 대한 의견 분류 연구들은 단어의 핵심 의미만을 파악하기 위해 어미부분을 제거하고 어간만을 취해서 처리하여 어미에 대한 의미변화를 고려하지 못하였다. 그래서 본 연구는 영어에 적용된 패턴을 이용한 기존 방법들을 정리하고, 그 방법들 중에서 극성을 지닌 문장성분 패턴을 한국어에 적용하였다. 그리고 어미의 변화에 대한 패턴을 추출하여 이 변화가 의견 분류의 성능에 미치는 영향을 분석하였다.

  • PDF

인지정보처리의 개인차와 문단의 이해: 구조모형 연구 (The Effect of the Individual differences in Cognitive Processes on Paragraph Comprehension: Structural Equation Modeling)

  • 이윤형;권유안
    • 인지과학
    • /
    • 제23권4호
    • /
    • pp.487-515
    • /
    • 2012
  • 본 연구의 목적은 다양한 방식으로 개개인의 인지능력을 측정하고 문단 이해 능력을 살펴보는 것을 통해 문단이해에 영향을 미치는 인지정보처리 기제를 살펴보는 것이다. 이를 위하여 본 연구에서는 어휘판단 과제와 형태비교 과제를 사용하여 하위 인지능력을 측정하였고 숫자폭 과제, 작업폭 과제와 읽기폭 과제를 통하여 작업기억의 개인차를 측정하였다. 또한 논리적으로 유효한 추론과 유효하지 않은 추론의 처리 속도와 정확도를 살펴보는 것을 통해 고차 인지능력을 측정하였다. 문단이해 능력을 측정하기 위해서는 목표 문장 앞에 원인 문장이 있는 경우와 그렇지 않은 경우에 실험참여자들의 문장의 읽기 속도와 정확도를 측정하였다. 구조 모형을 통해 문단이해에 영향을 미치는 요인들을 살펴본 결과 하위 인지처리의 속도는 고차 인지처리의 속도와 상관이 있고 하위 인지처리의 정확도는 고차인지 처리의 정확도와 상관이 있었으나 고차 인지처리와 하위 인지처리에서 모두 속도와 정확도간의 상관은 나타나지 않았다. 또한 작업기억은 고차 인지처리 및 하위 인지처리의 정확도와는 상관이 있었으나 인지처리의 속도와는 상관이 없었다. 보다 중요하게 문단이해의 속도에는 하위 인지처리의 속도만이 영향을 미쳤지만 문단이해의 정확도에는 작업기억과 고차인지처리 기제가 영향을 미치는 것으로 나타났다. 문단이해의 속도는 문단이해의 정확도에 영향을 미치지 않았다.

  • PDF

교육적으로 유의미한 의사소통을 위한 지구과학 관련 전시 라벨의 서술 특징 (Descriptive Characteristics of the Label Texts Related to Earth Science: Toward Educationally Meaningful Communication)

  • 김찬종;박은지;윤세열;이선경
    • 한국지구과학회지
    • /
    • 제33권1호
    • /
    • pp.94-109
    • /
    • 2012
  • 본 연구는 국내 주요 과학관 및 자연사 박물관의 지구과학 관련 전시 라벨 텍스트의 서술 특징을 분석하고자 하였다. 이를 위해, 국립 중앙 과학관과 서대문 자연사 박물관에서 자료를 수집하였고, 체계기능언어학을 일부 적용한 분석틀을 사용하였다. 연구 결과, 라벨들은 1) 대부분 평서형 문장, 2) 적절한 과학적 정보의 양, 3) '사실' 위주의 정보 제시, 4) 모두 논리적 설명 장르로 구성되어 있었다. 특히, 국립 중앙 과학관의 라벨들은 5) 전체 어휘 중 과학 용어의 비율이 높고 6) 주어의 절반 이상이 생략되거나 긴 명사화 형태였다. 결론적으로, 분석 대상 라벨들은 전시물과 관람객들 사이에서 과학 문화에 관한 양 방향적 의사소통을 이끌기보다 일 방향적인 의사소통을 일으킬 가능성이 높은 것으로 해석할 수 있었다. 이를 토대로, 과학 문화와 관람객의 일상 문화 사이의 열린 구조를 만들어 보다 교육적으로 유의미한 의사소통을 가능하게 하는 라벨 텍스트의 서술 특징들을 제안하였다.

제17대 대통령 후보 합동 토론 언어네트워크 분석 - 북한 관련 이슈를 중심으로 (Semantic Network Analysis of Presidential Debates in 2007 Election in Korea)

  • 박성희
    • 한국언론정보학보
    • /
    • 제45권
    • /
    • pp.220-254
    • /
    • 2009
  • 대통령 후보 합동 TV토론은 후보들의 정책과 인성의 상호 검증을 통해 민주적인 방식의 대통령 선출에 기여하는 중요한 선거 캠페인이다. 본 연구는 제17대 대통령 후보들이 TV합동토론에서 상호 교환한 어휘군(群)의 연결망을 언어네트워크 분석 소프트웨어인 KrKwic와 UCINET을 통해 분석하고 단어의 사용과 단어 간 거리를 비교 고찰함으로써 정치 토론의 실효성을 점검하고 북한 관련 이슈에 대한 후보 간 입장 차이를 규명하고자 했다. 연구 결과 이명박, 정동영, 이회창 세 후보의 상호토론에는 중심 논제의 구성이 본래 토론이 지향하는 상호이해의 구성요건인 접점(stasis)을 형성하기에 부적합하고, 단어의 선택과 사용빈도에서 생산적인 공방이나 토론의 교육적 효과에 대한 한계를 노정시킨 것으로 나타났다. 북한 관련 이슈 8개 단어들의 공출현 단어 간 거리 분석(co-occurrence matrix) 결과, 각 후보가 연결시킨 단어들 간의 관계를 통해 입장의 차이를 도식화할 수 있었다. 이명박 후보는 북한 문제를 남한과의 상대성에서 파악하는 경향을 보였으며, 이회창 후보는 한-미간의 관계 틀 안에서 북한 문제를 고려하고 북한문제와 핵문제를 동일시하는 것으로 드러났다. 또 정동영 후보는 북한의 문제를 한반도 문제로 개념화하고 북한과 전쟁을 연결 짓지 않는 특징을 나타냈다.

  • PDF

RDFS, OWL, OWL2의 문법특성을 고려한 신뢰향상적 LOD 연결성 평가 기법 (A Trustworthiness Improving Link Evaluation Technique for LOD considering the Syntactic Properties of RDFS, OWL, and OWL2)

  • 박재영;손용락
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제41권4호
    • /
    • pp.226-241
    • /
    • 2014
  • LOD(Linked Open Data)는 온톨로지에 기반하여 구조화되고 링크드 데이터 원칙에 의거하여 식별, 연결, 접근되는 RDF 트리플들로 구성된다. 이러한 LOD 데이터집합의 공개는 LOD 클라우드의 확장으로 이어지며 궁극적으로는 데이터 중심적인 웹으로 진화한다. 그러나, 존재적으로 동일한 개체들이 여러 LOD 데이터집합들에 걸쳐 서로 다르게 식별되는 경우 이들간의 동일성을 파악하여 신뢰적인 연결을 제공하는 것은 어려운 작업이다. 이를 위하여 본 논문은 신뢰향상적 연결성 평가(Trustworthiness Improving Link Evaluation: TILE) 기법을 제시한다. 보다 신뢰적인 연결성 평가 결과를 도출하기 위하여 TILE은 4단계로 진행한다. 우선, TILE은 LOD 데이터집합의 문법요소들이 가지는 추론적 특징을 고찰하여 잠재적으로만 존재하고 있던 사실들을 RDF 트리플들로 실체화하여 이를 데이터집합에 보강한다. 두 번째 단계에서 지정한 술어의 목적어 값을 비교하여 평가를 수행하며 세 번째 단계에서 RDF 트리플의 술어부가 지니고 있는 문법적 특성을 주어서술적/어휘정의적 관점에서 평가한 후 이를 두 번째 단계의 결과에 추가 반영한다. 이 과정에서 TILE이 고찰하는 문법적 요소들은 LOD 클라우드를 구축하기 위하여 W3C가 제시한 언어인 RDFS, OWL, OWL2 모두를 망라한다. 마지막으로, LOD 데이터집합 공개자로 하여금 연결성 평가결과를 검토하여 재평가 실시 혹은 연결확정을 결정하도록 함으로써 공개하는 데이터의 연결성이 가져야 하는 신뢰성에 공개주체의 책임이 반영되도록 한다.

LOD 클라우드에서의 연결정책 기반 동일개체 심층검색 및 정제 시스템 구현 (Implementation of Policy based In-depth Searching for Identical Entities and Cleansing System in LOD Cloud)

  • 김광민;손용락
    • 인터넷정보학회논문지
    • /
    • 제19권3호
    • /
    • pp.67-77
    • /
    • 2018
  • 본 연구에서는 동일연결트리플들을 생성하는 대신 각 LOD마다 연결정책을 수립, 공개하고 검색 시점에서 참조하는 방식으로 개체간의 동일성을 파악하는 방안과 이러한 연결정책을 명세하기 위한 어휘를 제안하였다. 또한, 연졀정책이 운영되는 환경에서 여러 LOD들에 걸친 심층검색이 실질적으로 진행되는 것을 확인하기 위하여 PISC(Policy based In-depth Searching and Cleansing)을 구현하였으며 이를 Github에 공개하였다. LOD 클라우드는 여러 LOD들의 자발적인 참여로 이루어짐에 따라 검색된 개체들의 동일성에 대한 평가가 필요하다. 이에, PISC는 개체간 동일성 평가를 통하여 사용자가 요구한 동일수준 이상의 개체들로 정제된 검색결과를 제공한다. 검색결과로는 RDF로 모델링된 개체별 상세 검색내용과 이에 대한 의미적 구조인 온톨로지를 함께 제공된다. PISC에 대한 실험은 DBpedia의 5개 LOD를 대상으로 진행하였으며 소스와 타겟 RDF 트리플 목적어의 유사도를 0.9 정도로 요구할 경우 검색결과가 적절한 확장률과 포함률을 가지는 것으로 확인하였다. 또한, 연결정책에는 3개 이상의 타겟LOD를 명세할 경우 동일성이 충분히 검증된 개체들을 확보할 수 있는 것으로 확인하였다.

무선 인터넷 서비스를 위한 WAP 게이트웨이용 WML 컴파일러의 설계 및 구현 (A Design and Implementation of WML Compiler for WAP Gateway for Wireless Internet Services)

  • 최은정;한동원;임경식
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제7권2호
    • /
    • pp.165-182
    • /
    • 2001
  • 무선 마크업 언어(Wireless Markup Language) 컴파일러는 텍스트로 구성된 문서를 바이너리 문서로 변환, 압축함으로써, 낮은 대역폭을 갖는 무선 선로에서 트래픽을 감소시키며, 낮은 성능을 갖고 있는 이동 단말기에서 브라우징 처리를 간단하게 하는 역할을 한다. 또한 이러한 변환 과정에서 확장 마크업 언어(eXtensible Markup Language)의 well-formedness와 validation 과정을 동시에 처리함으로써, 이동 단말기에서 문서처리 부담을 대폭 경감하는 효과를 가져온다. 본 논문에서 구현한 무선 마크업 언어 컴파일러는 어휘분석기 모듈과 파서 모듈로 구성되어 있는데, 파서 모듈은 파서 생성기를 사용하여 구현하였다. 이는 향후 응용 수준에서 보안 기능을 제공하기 위하여 태그를 확장하거나 무선 마크업 언어의 버전이 업그레이드 될 때에서 변경된 부분에 해당하는 문법만 다시 설계함을써 유연하게 대처할 수 있는 장점을 가지고 있다. 사용된 문법은 LALR(1) context-free 문법으로서, 확장 마크업 언어 1.0과 무선 마크업 언어 1.2의 문서 형태 정의(Document Type Definition)를 기반으로 무선 응용 프로토콜 바이너리 확장 마크업 언어(Wireless Application Protocol Binary XML) 문법을 고려하여 설계되었다. 구현된 컴파일러의 기능을 실험하여 데모하기 위하여 세 가지 방법(수작업, WML 디컴파일러, 노키아 WAP 툴킷)을 사용하였으며, 다양한 태그 조합을 갖는 임의의 130여 개 문서에 대해 실험한 결과, 최대 85%의 압축효과를 얻을 수 있었다. 그러나, 태그나 속성에 비해 일반 문자열 데이타가 많아지면 상대적으로 압축효과가 감소되므로, Hyper Text Markup Language 문서로부터 무선 마크업 언어 문서로 자동 변환된 텍스트를 인코딩하는 경우와 같이 특정한 응용 분야에서는 일반 문자열에 대한 확장 인코딩 기법을 적용할 필요가 있을 수 있다.

  • PDF

연구데이터 관리를 위한 OAK 메타데이터 확장 방안 연구 (A Preliminary Study on Extending OAK Metadata for Research Data)

  • 이미화;이은주;노지현
    • 한국도서관정보학회지
    • /
    • 제51권3호
    • /
    • pp.27-51
    • /
    • 2020
  • 본 연구는 국립중앙도서관의 오픈액세스 리포지토리인 OAK에서 연구데이터를 기술할 수 있도록 OAK 메타데이터에 확장 방안을 제안하는데 목적이 있다. 이를 위한 연구방법으로 문헌연구, 사례조사, 관계자와의 면담을 실시하였다. 연구데이터 기술을 위한 기존 OAK 메타데이터의 확장 방안을 다음과 같이 도출하였다. 첫째, 연구데이터를 위한 모델링으로 컬렉션 > 아이템 > 파일로 구성된 기존 구조를 그대로 유지하되 컬렉션은 해당 연구데이터를 묶을 수 있는 상위 그룹으로 두고, 아이템에는 연구데이터의 메타데이터와 파일을 묶어 제공하는 구조를 제안하였다. 둘째, 표준, 사례 기관의 메타데이터를 기존 OAK 메타데이터와 매핑하여 연구데이터의 기술을 위해 OAK에 추가할 필요가 있다고 판단되는 요소를 선별하여 OAK 확장 요소를 도출하였다. 셋째, 구조화된 데이터를 통해 검색이나 추후 통계 등에 활용할 수 있도록 통제어휘집과 구문에 대한 사항도 제시하였다. 본 연구는 연구데이터의 기술을 위해 OAK 메타데이터를 확장함으로써 국내에서 산출되는 연구데이터가 공식적으로 수집·저장·활용될 수 있는 기반을 제공함으로써 국가적으로 연구의 중복을 방지하고 연구 산출물을 공유 및 재활용할 수 있는 정보환경을 구축하는데 기여하였다.

국내 건설·건축용어 연구의 동향 분석 및 표준화 제안 (Analysis on Research Trends and Proposal for Standardization of Construction & Architectural Terms in Korea)

  • 박은하;전진우
    • 한국콘텐츠학회논문지
    • /
    • 제15권5호
    • /
    • pp.620-629
    • /
    • 2015
  • 건설 건축 사업의 대형화와 업무의 복잡화로 인해 정보 기술을 축적하고 공유하기 위한 필수 선결 작업은 바로 용어의 통일화 및 표준화라고 할 수 있다. 그리하여 건설 건축용어 관련 연구들을 조사 분석하여 그 연구 동향을 알아보고 그 실태는 어떠한지를 알아보는 것이 본 연구의 목적이다. 이를 위해 학술연구정보서비스를 통해 2014년 8월까지의 건설 건축용어 관련 연구들을 검색하고 시기별, 유형별, 내용별로 어떠한지를 분류하고 분석한다. 조사 결과, 총 130편의 연구 결과물이 조사되었고 조사대상의 문헌 유형은 단행본이 절반을 차지하여 가장 많았으며 학술지 논문, 학위 논문, 보고서의 순으로 나타났다. 시기별로 봤을 때, 건설, 건축 용어 관련 연구는 1939년 이른 시기에 시작되었으며 1980년대 중반부터 1990년대 중반까지 활발하게 연구가 이루어졌다. 내용별로는 용어의 정리 및 정립에 관한 것이 많았고 표준화, 분석, 순화어, 변화, 사전과 어휘집, 검색시스템, 인식의 순으로 나타났다. 이런 노력들이 있었음에도 불구하고 최근까지 용어 사전이 편찬되고 표준화에 대한 연구가 나오고 있는 것은 아직 학계 및 현장에서는 용어의 통일화 및 표준화가 제대로 이루어지지 않은 실정을 보여주는 것이다. 그리하여 본고에서는 향후 표준화를 위한 제언으로 여섯 가지를 제안하였다. 이 연구는 건설 건축용어 관련 연구가 건설 건축 분야에 어떤 영향을 끼치는지를 알아보는 실질적인 계기가 되며 향후 심화 연구 및 관련 연구에 필요한 기초 자료가 되리라 짐작한다.

C++컴파일러 및 프로그래밍 환경 개발 (Debelppment of C++ Compiler and Programming Environment)

  • 장천현;오세만
    • 한국정보처리학회논문지
    • /
    • 제4권3호
    • /
    • pp.831-845
    • /
    • 1997
  • 본 논문에서는 가장 널리 사용되고 있는 객체지향 언어인 C++를 지한 컴푸일러 및 대화식 프로그래밍 환경을 제안하고 개발하였다. C++ 언어를 위한 컴파일러를 개발하기 위해 컴파러를 Front-End 와 Back-End로 나누고 가상기계인 EM을 사용하여 연결하는 모델을 사용하였다. Front-End 개발시에는 C++ 문법을 문법석 도구, 어휘 및 구문분석기 생성도구를 이용하여 구문분석 방법과 문맥에 연동된 문법 처리기술과 AST클래스 라이브러리를 개발하였다. Back-End에서는 목적기계 표현기술과 토리코드 최적화 방법, 트리 패턴 매칭에 의한 재목적 코드 생성 기법을 제안하고 이를 이용한 재목적이 용이한 SPARC 기계 Back-End를 개발하였다. C++를 위한 대화식 프로그래밍 환경은 언어의 다양한 특성을 효과적으로 표현하기 위해 AST을 이용하고, 점진적 분석 기술과 시각 기호 를 제안하였다. 대화식 환경의 일반화에 의한 자동생성 방법과 프로그램의 정형화된 표현 방법을 위한 Unparsing 체계를 제안하였다. 개발된C++ 컴팰러와 대화식 프로그램 환경은 통합된 C++ 프로그래밍 환경을 구성하게 된다. 본 연구를 통해 얻어진 기술 들은 새로운 고급언어 및 기계에 대한 컴파일러의 개발은 물론 병렷 및 분산 환경을 위한 컴파일러 개발에 활옹될 수 있을 것이다.

  • PDF