• 제목/요약/키워드: Word order

검색결과 1,013건 처리시간 0.027초

온톨로지 구축 및 단어 의미 중의성 해소에의 활용 (Ontology Construction and Its Application to Disambiguate Word Senses)

  • 강신재
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.491-500
    • /
    • 2004
  • 본 논문은 기존의 다양한 언어자원들을 이용하여 온톨로지를 구축하고, 이를 단어의미 중의성 해소에 활용하는 방법을 제시하고 있다. 온톨로지를 실용적으로 구축하기 위해서는 가도카와 시소러스의 개념 체계에 격 관계와 기타 의미관계와 같은 다른 의미관계를 추가하여 확장하는 방법을 선택하였다. 구축된 온톨로지를 단어 의미 중의성 해소에 활용하기 위해서는, 결합가 정보를 포함하고 있는 전자사전을 먼저 이용하여 단어의 의미를 결정하고, 결정하지 못한 단어의 의미는 온톨로지를 이용하여 결정하는 절차를 거친다. 이를 위해 온톨로지 내 개념들간의 상호정보가 말뭉치의 통계 정보에 근거하여 계산되는데, 이를 가중치로 간주하면 온톨로지는 가중치 그래프로 생각할 수 있으므로 개념간 경로를 통하여 개념간 연관도를 알아 볼 수 있다. 실제 기계번역 시스템에서 본 방법은 온톨로지를 사용하지 않은 방법보다 9%의 성능 향상을 가져오는 결과를 얻을 수 있었다.

Apriori알고리즘에 의한 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지만 자동 문서 분류 (Weighted Bayesian Automatic Document Categorization Based on Association Word Knowledge Base by Apriori Algorithm)

  • 고수정;이정현
    • 한국멀티미디어학회논문지
    • /
    • 제4권2호
    • /
    • pp.171-181
    • /
    • 2001
  • 기존의 베이지만 문서 분류를 위한 단어 군집 방법은 많은 시간과 노력을 요구하며, 단어 간의 의미 관계를 정확하게 반영하지 못하는 문제점이 있다. 본 논문에서는 마이닝 기법으로 구축된 연관 단어 지식 베이스를 기반으로 하는 베이지안 문서 분류 방법을 제안한다. 제안된 베이지안 문서 분류 방법은 문서를 분류하기 전에 훈련 문서를 사용하여 가중치가 부여된 연관 단어 지 식 베이스를 구축한다. 그 다음으로, 베이지안 확률을 이용하는 분류자는 구축된 연관 단어 지식 베이스를 기반으로 문서를 클래스별로 분류한다. 제안된 방법의 성능을 평가하기 위해, 상호 정보 계산에 의한 단어 사전을 이유한 가중치가 부여된 베이지안 문서 분류 방법, 가중치가 부여된 베이지안 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다. 그 결과, 연관 단어 지식 베이스에 기반한 가중치가 부여된 베이지안 분류 방법이 상호 정보에 의한 단어 사진을 이용하는 가중치가 부여된 베이지안 분류 방법보다는 0.87%, 가중치가 부여된 베이지안 분류 방법보다는 2.77%, 단순 베이지안 방법보다는 5.97% 높은 성능 차이를 보였다.

  • PDF

영작문 자동 채점 시스템을 위한 문맥 고려 단어 오류 검사기 (Context-sensitive Word Error Detection and Correction for Automatic Scoring System of English Writing)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권1호
    • /
    • pp.45-56
    • /
    • 2015
  • 본 연구에서는 문맥 정보를 함께 고려해야만 인식할 수 있는 단어 오류에 대하여 오류 인식 방법과 수정 후보 생성 방법을 제안한다. 이 문제는 기존의 영어권에서 이미 많이 다룬 연구 주제이다. 본 연구에서는 영어 자동채점 시스템에서 사용하도록 특화된 방법을 제안한다. 문맥 정보를 고려한 단어 오류 검사에서는 자주 혼동되어 사용되는 단어집합(confusion set)을 활용한다. 비영어권 사용자의 작문 특성을 반영하기 위해 기존의 영어권에서 구축한 혼동집합 이외에 자동으로 혼동집합을 구축하여 실험해 보았다. 또한 품사 중의성으로 인해 기존의 구문오류 검사기가 다루지 못하는 오류를 정의하고 오류 인식과 오류수정 후보를 생성하는 방법을 제안한다. 실제 한국어가 모국어이면서 초/중급 작문 수준의 수험생들이 작성한 영어 문장에 대해 평가해 본 결과, 약 70.48%의 f1 값을 얻어 기존의 영어권 결과에 비해 뒤지지 않는 성능을 보였다.

다중 지불이 가능한 PayWord 기반의 소액 지불 프로토콜 (A Micro-Payment Protocol based on PayWord for Multiple Payments)

  • 김선형;김태윤
    • 한국정보과학회논문지:정보통신
    • /
    • 제30권2호
    • /
    • pp.199-206
    • /
    • 2003
  • 본 논문에서는 대표적인 소액 지불 프로토콜 중의 하나인 PayWord를 개선한 효율적인 지불프로토콜을 제안한다. 기존의 PayWord 시스템은 사용자가 해쉬 체인 연산을 수행하여 생성된 payword를 하나의 지정된 판매자에게만 지불할 수 있도록 설계되어 있다. 즉 사용자는 인터넷상의 수많은 판매자들과 거래를 하기 위해서 각 판매자에 대한 해쉬 체인 값을 새로 생성해야 한다. 본 논문에서는 이러한 결점을 보완하기 위해 사용자가 한 번 생성하는 해쉬 체인 값으로도 다른 판매자들과 거래를 할 수 있는 효율적인 방법을 제안한다. 제안한 시스템에서는 브로커가 사용자의 인증서 발급 요청에 대하여 인증서와 함께 새로운 해쉬 체인 값을 생성한다. 이 인증서에는 사용자에게 payword를 생성할 수 있는 권한을 부여하기 위해 브로커의 전자 서명이 되어 있다. 브로커가 생성하는 새로운 해쉬 체인 값은 사용자가 한번의 해쉬 체인 연산의 수행으로 여러 판매자들과 거래할 수 있는 수단을 제공한다.

한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델 (Two Statistical Models for Automatic Word Spacing of Korean Sentences)

  • 이도길;이상주;임희석;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.358-371
    • /
    • 2003
  • 자동 띄어쓰기는 문장 내에서 잘못 띄어쓴 어절들을 올바르게 복원하는 과정으로서, 독자에게 글의 가독성을 높이고 문장의 뜻을 정확히 전달하기 위해 매우 중요하다. 기존의 통계 기반 자동 띄어쓰기 접근 방법들은 이전 띄어쓰기 상태를 고려하지 않기 때문에 잘못된 확률 정보에 의한 띄어쓰기를 할 수밖에 없었다. 본 논문에서는 기존의 통계 기반 접근 방법 의 문제점을 해결할 수 있는 두 가지 통계적 띄어쓰기 모델을 제안한다. 제안하는 모델은 자동 띄어쓰기를 품사 부착과 같은 분류 문제(classification problem)로 간주할 수 있다는 착안에 기반하며, 은닉 마르코프 모델을 일반화함으로써 확장된 문맥을 고려할 수 있고 보다 정확한 확률을 추정할 수 있도록 고안되었다. 제안하는 모델과 지금까지 가장 좋은 성능을 보이는 기존의 방법을 비교하기 위해 여러 가지 실험 조건에 따른 다양한 실험을 수행하였고, 오류에 대한 자세한 분석을 제시하고 있다 제안하는 모델을 복합 명사를 고려하는 평가 방식에 적응한 실험 결과, 98.33%의 음절 단위 정확도와 93.06%외 어절단위 정확률을 얻었다.

온라인 구전정보특성과 정보신뢰성이 지각된 정보유용성과 정보수용성에 미치는 영향 (The Effects of e-WOM's Information Characteristics and Reliability of e-WOM's Information on e-WOM's Perceived Usefulness and Acceptance)

  • 김영훈
    • 한국조리학회지
    • /
    • 제24권1호
    • /
    • pp.151-163
    • /
    • 2018
  • Today, the development of internet brings many changes in formation exploration and acceptance. Not only the customers can come into contact much information about the firm and its product by quick and easy search, but also they produce information by themselves or can spread the information via the internet. Nowadays, customers are progressive information explorer and producer on online. In this sense, this study examined the effects of e-word-of-mouth information characteristics on the consumer's perceived usefulness and perceived acceptance of e-word-of-mouth information in the food service industry in order to suggest directions to enhances marketing strategies for marketer. The research model for this study was designed based on the hypothesis that the characteristics of e-word-of-mouth information and credibility of the information influenced both the user's perceived usefulness and acceptance. Based on total 277 customers obtained from the empirical research, this study reviewed validity, reliability and fitness of research model. The analysis results on these factors are as follow. First, the characteristics of e-word-of-mouth information; vividness, consensus, direction had an influence on the customer's perceived usefulness. Second, the characteristics of e-word-of-mouth information; vividness, consensus, direction had an influence on the customer's perceived acceptance. Third, the reliability of information had an influence on the customer's perceived usefulness and the credibility of e-word-of-mouth information perceived acceptance. Fourth, the customer's perceived usefulness had an influence on the customer's perceived acceptance.

문서입력 작업 시 컴퓨터 키보드 유형이 손목관절의 운동학적 특성에 미치는 영향 (The Effect of Standard Keyboard and Fixed-Split Keyboard on Wrist Posture During Word Processing)

  • 권혁철;정동훈;공진용
    • 한국전문물리치료학회지
    • /
    • 제11권1호
    • /
    • pp.35-43
    • /
    • 2004
  • There were two purposes of this study. The first was to research the effects of standard and fixed-split keyboards on wrist posture and movements during word processing. The second was to select optimal computer input devices in order to prevent cummulative trauma disorder in the wrist region. The group of subjects consisted of thirteen healthy men and women who all agreed to participate in this study. Kinematic data was measured from both wrist flexion and extension, and wrist radial and ulnar deviation during a 20 minute period of word processing work. The measuring tool was an electrical goniometer, and was produced by Biometrics Cooperation. The results were as follows: 1. The wrist flexion and extension at resting starting position were not significantly different (p>.05), however the angle of radial and ulnar deviation were significantly different in standard and split keyboard use during word processing (p<.05). 2. In the initial 10 minutes, the dynamic angle of wrist flexion and extension were not significantly different (p>.05), however the dynamic angle of radial and ulnar deviation was significantly different in standard and split keyboard use during word processing (p<.05). These results suggest that the split keyboard is more optimal than the standard keyboard, because it prevented excessive ulnar deviation during word processing.

  • PDF

Word2Vec과 LSTM을 활용한 이별 가사 감정 분류 (Parting Lyrics Emotion Classification using Word2Vec and LSTM)

  • 임명진;박원호;신주현
    • 스마트미디어저널
    • /
    • 제9권3호
    • /
    • pp.90-97
    • /
    • 2020
  • 인터넷과 스마트폰의 발달로 디지털 음원은 쉽게 접근이 가능해졌고 이에 따라 음악 검색 및 추천에 대한 관심이 높아지고 있다. 음악 추천 방법으로는 장르나 감정을 분류하기 위해 음정, 템포, 박자 등의 멜로디를 사용한 연구가 진행되고 있다. 하지만 음악에서 가사는 인간의 감정을 표현하는 수단 중의 하나로 역할 비중이 점점 높아지고 있기 때문에 가사를 기반으로 한 감정 분류 연구가 필요하다. 이에 본 논문에서는 가사를 기반으로 이별 감정을 세분화하기 위해 이별 가사의 감정을 분석한다. 이별 가사에 나타나는 단어 간 유사도를 Word2Vec 학습을 통해 벡터화하여 감정 사전을 구축 한 후 LSTM을 활용하여 가사를 학습시켜 유사한 감정으로 가사를 분류해주는 Word2Vec과 LSTM을 활용한 이별 가사 감정 분류 방법을 제안한다.

단어의 의미와 문맥을 고려한 순환신경망 기반의 문서 분류 (Document Classification using Recurrent Neural Network with Word Sense and Contexts)

  • 주종민;김남훈;양형정;박혁로
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권7호
    • /
    • pp.259-266
    • /
    • 2018
  • 본 논문에서는 단어의 순서와 문맥을 고려하는 특징을 추출하여 순환신경망(Recurrent Neural Network)으로 문서를 분류하는 방법을 제안한다. 단어의 의미를 고려한 word2vec 방법으로 문서내의 단어를 벡터로 표현하고, 문맥을 고려하기 위해 doc2vec으로 입력하여 문서의 특징을 추출한다. 문서분류 방법으로 이전 노드의 출력을 다음 노드의 입력으로 포함하는 RNN 분류기를 사용한다. RNN 분류기는 신경망 분류기 중에서도 시퀀스 데이터에 적합하기 때문에 문서 분류에 좋은 성능을 보인다. RNN에서도 그라디언트가 소실되는 문제를 해결해주고 계산속도가 빠른 GRU(Gated Recurrent Unit) 모델을 사용한다. 실험 데이터로 한글 문서 집합 1개와 영어 문서 집합 2개를 사용하였고 실험 결과 GRU 기반 문서 분류기가 CNN 기반 문서 분류기 대비 약 3.5%의 성능 향상을 보였다.

MS 워드의 RSID 분석을 통한 문서파일 이력 추적 기법 연구 (Study on History Tracking Technique of the Document File through RSID Analysis in MS Word)

  • 전지훈;한재혁;정두원;이상진
    • 정보보호학회논문지
    • /
    • 제28권6호
    • /
    • pp.1439-1448
    • /
    • 2018
  • MS 워드를 포함한 다양한 전자 문서파일은 계약서 위조, 영업기밀 유출 등의 각종 법적 분쟁에서 주요 쟁점이 되고 있다. MS 워드 2007 이후부터 사용되는 OOXML(Office Open XML) 포맷의 파일 내부 메타데이터에는 고유의 RSID(Revision Identifier)가 저장되어 있다. RSID는 문서의 내용을 생성/수정/삭제 후 저장할 때마다 해당 단어, 문장, 또는 문단에 부여되는 고유한 값으로, 내용 추가/수정/삭제 이력, 작성 순서, 사용된 문서 어플리케이션 등의 문서 이력을 추정할 수 있다. 본 논문에서는 사용자의 행위에 따른 RSID의 변경 사항으로 원본과 사본 구별, 문서파일 유출 행위 등을 조사하는 방법론을 제시한다.