• 제목/요약/키워드: word length

검색결과 229건 처리시간 0.022초

문서 확장을 이용한 표제어 검색시스템 (Headword Finding System Using Document Expansion)

  • 김재훈;김형철
    • 정보관리연구
    • /
    • 제42권4호
    • /
    • pp.137-154
    • /
    • 2011
  • 표제어 검색시스템은 뜻풀이를 질의로 간주하는 정보검색 시스템이다. 이러한 시스템을 구축하기 위한 가장 간단한 방법으로 사전의 표제어 뜻풀이(사전 뜻풀이)를 문서로 간주하는 정보검색 시스템을 구축하는 것이다. 이 문서의 길이가 너무 짧아 사용자 질의(사용자 뜻풀이)에 대한 적절한 표제어를 검색하기 어렵다. 이 문제를 완화하기 위해서 본 논문에서는 정보검색에서 사용되는 질의 확장 개념을 문서 확장에 적용한다. 본 논문에서는 문서 확장 방법으로는 뜻풀이 확장과 유의어 확장을 사용한다. 뜻풀이 확장은 주어진 단어의 사전 뜻풀이에 속하는 단어의 뜻풀이를 문서에 포함시키는 방법이고, 유의어 확장은 무자질 군집화 알고리즘을 통해서 유의어를 찾고, 찾아진 유의어를 문서에 포함시키는 방법이다. 제안된 표제어 검색시스템은 사전 뜻풀이 그 자체를 입력으로 할 때, 16-포함률이 거의 100%에 달하였다. 또한 사용자 뜻풀이를 입력으로 할 때, 20-포함률이 66.9%였다. 사용자 뜻풀이가 단어의 의미를 충분히 전달할 수 없는 것으로 관찰되었으며 앞으로 정확하고 객관적인 평가를 위해서 평가 집합에 대한 연구가 추가적으로 필요한 실정이다.

목재(木齋) 이삼환(李森煥)의 「맹호음(猛?吟)」 연구(硏究) (A Study on the 「MaengHoEum」 of Mokjae Lee Samhwan)

  • 윤재환
    • 동양고전연구
    • /
    • 제70호
    • /
    • pp.157-183
    • /
    • 2018
  • 목재(木齋) 이삼환(李森煥)의 "맹호음(猛?吟)"은 목재가 선대(先代)에서 창작했던 시의 운자(韻字)를 따라 지은 5언절구 7수 연작시 3편을 말한다. 이 시는 제목과 내용으로 보아 "맹호행(猛虎行)" 계열 한시의 창작 전통을 이은 것이라고 할 수 있지만, 5언이나 7언, 혹은 장단구의 장편 고시가 아니라 근체 연작시 형식으로 창작되었다는 점에서 일반적인 "맹호행(猛虎行)" 계열의 시와 구분된다. 목재의 "맹호음(猛?吟)"은 그의 나이 73세가 되던 1801년 일어난 신유박해(辛酉迫害) 이후 어느 시점에 지어진 것으로 보인다. 따라서 그의 "맹호음(猛?吟)"은 노론 계열을 중심으로 하는 당대 사회의 부패한 정치권력을 비판하는 우언시(寓言詩), 사회시(社會詩)라고 할 수 있고, 그의 시에 등장하는 '맹호(猛虎)'는 당시 집권 세력을 지칭한다고 할 수 있다. 그런데 목재의 "맹호음(猛?吟)"을 살펴보면 현실의 질곡에 대한 비판의식이 드러나기는 하지만, 그 감정이 격절하거나 묘사가 구체적이지 않다. 그의 시에는 적극적인 현실 비판이나 강한 저항 의식이 보이지 않는다. "맹호음(猛?吟)"이 보여주는 이런 특성은 그가 평생 추구했던 학문과 그의 정서에 삶의 경험과 현실의 무게가 더해진 결과라 생각된다. 목재가 겪었던 당대의 모순은 그를 침묵하고만 있을 수 없게 했지만 그 자신의 울분을 시의 표면에 격절하게 드러낼 수도 없게 하였다. 자신의 행동에 영향 받는 후예들과 그를 지켜보는 반대 세력의 따가운 시선 사이에서 그는 자신의 감정을 내적으로 갈무리할 수밖에 없었던 것이다. 목재의 "맹호음(猛?吟)"에서 살펴볼 수 있는 정서의 구체적인 양상과 의미를 보다 선명하게 밝히기 위해서는 목재의 시에 대한 깊이 있는 천착이 계속되어야 할 것이다.

과학교과서의 학년 간 언어적 특성 분석 -텍스트 정합성을 중심으로- (An Analysis of Linguistic Features in Science Textbooks across Grade Levels: Focus on Text Cohesion)

  • 류지수;전문기
    • 한국과학교육학회지
    • /
    • 제41권2호
    • /
    • pp.71-82
    • /
    • 2021
  • 교과서를 통한 학습의 효율성을 최대화하기 위해서는 교과서에 수록된 텍스트 특성이 예상된 학습자의 특성(i.e., 언어적 및 인지적 능력, 배경지식 수준)에 따라 체계적으로 조절되어야 한다. 이에 따라 현재 연구에서는 과학교과서 개발에 이러한 체계적인 원칙이 반영되어 있는지를 알아보기 위하여 중학교 1, 2, 3학년 과학교과서의 학년 간 언어적 특성을 비교 분석하였다. 구체적으로 한국어 분석 프로그램인 Auto-Kohesion 시스템을 활용하여 기존 텍스트 분석 연구에 많이 활용되었던 텍스트 표층 구조 측정치, 어휘 관련 측정치, 통사적 복잡성 측정치와 같은 피상적 측정치에 더하여 여러 정합성 관련 측정치(e.g., 명사 반복, 접속사, 대명사)를 분석하였다. 주요 분석 결과, 대체로 어절 및 문장 길이, 어휘 빈도와 같은 피상적으로 두드러지는 특성에 대해서는 학년이 증가함에 따라 텍스트 복잡도가 상승하는 방향으로 단계적으로 조절이 이루어졌지만, 그 외의 많은 언어적 특질에 대해서는 체계적으로 조절되지 않은 것으로 나타났다. 특히 여러 정합성 측정치들이 교과서 개발 과정에서 충분히 고려되지 않은 것으로 시사되었다. 이러한 결과는 저학년 학습자들이 교과서를 사용할 때 발달 단계에 맞지 않는 어려운 텍스트를 접할 가능성이 있어서 학습 의욕 및 효율성 저하 현상이 발생할 수 있다는 것을 제시한다. 아울러 고학년 교과서가 고등 교육을 대비하여 더욱 복잡한 텍스트를 처리할 수 있는 능력을 개발시키기 위한 용도로 적절하지 않을 수 있음을 시사한다. 본 연구는, 추후 교과서 개발 과정에서, 예상된 독자 특성의 변화에 따라 정합성 측정치를 포함한 여러 언어적 특성이 단계적으로 조절되어야 함을 제안한다.

호가창과 뉴스 헤드라인을 이용한 딥러닝 기반 주가 변동 예측 기법 (Deep Learning-based Stock Price Prediction Using Limit Order Books and News Headlines)

  • 류의림;이기용;정연돈
    • 한국전자거래학회지
    • /
    • 제27권1호
    • /
    • pp.63-79
    • /
    • 2022
  • 최근 머신러닝 및 딥러닝 기법을 활용한 주식 가격 예측 연구가 다양하게 이루어지고 있다. 그 중에서도 최근에는 주식 매수 및 매도 주문 정보를 담고 있는 호가창을 이용하여 주가를 예측하려는 연구가 시도되고 있다. 하지만 호가창을 활용한 연구는 대부분 가장 최근 일정 기간 동안의 호가창 추이만을 고려하며, 호가창의 중기 추이와 단기 추이를 같이 고려하는 연구는 거의 진행되지 않았다. 이에 본 논문에서는 호가창의 중기와 단기 추이를 모두 고려하여 주가 등락을 보다 정확히 예측하는 딥러닝 기반 예측 모델을 제안한다. 더욱이 본 논문에서 제안하는 모델은 중단기 호가창 정보 외에도 해당 종목에 대한 동기간 뉴스 헤드라인까지 고려하여 기업의 정성적 상황까지 주가 예측에 반영한다. 본 논문에서 제안하는 딥러닝 기반 예측 모델은 호가창 변화의 특징을 합성곱 신경망으로 추출하고 뉴스 헤드라인의 특징을 Word2vec을 이용하여 추출한 뒤, 이들 정보를 결합하여 특정 기업 주식의 다음 날 등락 여부를 예측한다. 실제 NASDAQ 호가창 데이터와 뉴스 헤드라인 데이터를 사용하여 제안 모델로 5개 종목(Amazon, Apple, Facebook, Google, Tesla)의 일일 주가 등락을 예측한 결과, 제안 모델은 기존 모델에 비해 정확도를 최대 17.66%p, 평균 14.47%p 향상시켰다. 또한 해당 모델로 모의 투자를 수행한 결과, 21 영업일 동안 종목에 따라 최소 $492.46, 최대 $2,840.83의 수익을 얻었다.

이독성을 통한 초등학교 5, 6학년 영어 교과서 읽기 지문의 연계성 분석 (Analysis of the Continuity of Reading Passages in the 5th and 6th Grade Elementary School English Textbooks Based on Readability)

  • 장한결;이제영
    • 한국콘텐츠학회논문지
    • /
    • 제22권6호
    • /
    • pp.116-124
    • /
    • 2022
  • 본 연구의 목적은 초등학교 5, 6학년 영어 교과서에 수록된 읽기 지문의 이독성을 분석하여 학년 간 수직적 연계성과 출판사 간 수평적 연계성을 살펴보는 것이다. 이를 위해 10종의 교과서에 수록된 읽기 지문을 코퍼스로 구축한 후, Coh-Metrix를 통해 각 교과서에 수록된 읽기 지문의 이독성을 분석하였다. 또한 일원배치 분산분석을 통해 산출된 이독성에 학년 간, 출판사 간에 통계적으로 유의한 수준의 차이가 있는지 살펴보았다. 이를 통해 얻어진 결과는 다음과 같다. 첫째, 동일 학년 내 읽기 지문의 출판사간 난이도 차이를 분석하여 수평적 연계성을 살펴본 결과 RDL2 지수에서 5학년 교과서간에 유의한 차이가 있었다. 둘째, 출판사 내에서의 학년 간 수직적 연계성을 분석한 결과 FRE와 FKGL 기준으로 교과서 A의 난이도가 5학년에 비해 6학년에서 높았으며, 이는 통계적으로 유의한 수준의 차이였다. 반면 RDL2를 기준으로 했을 경우 교과서 B의 난이도가 5학년에 비해 6학년에서 더 낮아지는 결과를 보았다. 이러한 결과는 FRE와 FKGL은 문장 길이와 단어 길이 중심으로 이독성을 산출하는 반면, RDL2는 내용어 중복, 단어 빈도 수, 문장의 통사적 유사성 등을 기초로 하고 있기 때문으로 보인다.

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

주관적 웰빙 상태 측정을 위한 비정형 데이터의 상황기반 긍부정성 분석 방법 (Analyzing Contextual Polarity of Unstructured Data for Measuring Subjective Well-Being)

  • 최석재;송영은;권오병
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.83-105
    • /
    • 2016
  • 의료IT 서비스의 유망 분야인 정신건강 증진을 위한 주관적 웰빙 서비스(subjective well-being service) 구현의 핵심은 개인의 주관적 웰빙 상태를 정확하고 무구속적이며 비용 효율적으로 측정하는 것인데 이를 위해 보편적으로 사용되는 설문지에 의한 자기보고나 신체부착형 센서 기반의 측정 방법론은 정확성은 뛰어나나 비용효율성과 무구속성에 취약하다. 비용효율성과 무구속성을 보강하기 위한 온라인 텍스트 기반의 측정 방법은 사전에 준비된 감정어 어휘만을 사용함으로써 상황에 따라 감정어로 볼 수 있는 이른바 상황적 긍부정성(contextual polarity)을 고려하지 못하여 측정 정확도가 낮다. 한편 기존의 상황적 긍부정성을 활용한 감성분석으로는 주관적 웰빙 상태인 맥락에서의 감성분석을 할 수 있는 감정어휘사전이나 온톨로지가 구축되어 있지 않다. 더구나 온톨로지 구축도 매우 노력이 소요되는 작업이다. 따라서 본 연구의 목적은 온라인상에 사용자의 의견이 표출된 비정형 텍스트로부터 주관적 웰빙과 관련한 상황감정어를 추출하고, 이를 근거로 상황적 긍부정성 파악의 정확도를 개선하는 방법을 제안하는 것이다. 기본 절차는 다음과 같다. 먼저 일반 감정어휘사전을 준비한다. 본 연구에서는 가장 대표적인 디지털 감정어휘사전인 SentiWordNet을 사용하였다. 둘째, 정신건강지수를 동적으로 추정하는데 필요한 비정형 자료인 Corpora를 온라인 서베이로 확보하였다. 셋째, Corpora로부터 세 가지 종류의 자원을 확보하였다. 넷째, 자원을 입력변수로 하고 특정 정신건강 상태의 지수값을 종속변수로 하는 추론 모형을 구축하고 추론 규칙을 추출하였다. 마지막으로, 추론 규칙으로 정신건강 상태를 추론하였다. 본 연구는 감정을 분석함에 있어, 기존의 연구들과 달리 상황적 감정어를 적용하여 특정 도메인에 따라 다양한 감정 어휘를 파악할 수 있다는 점에서 독창성이 있다.

Dual task interference while walking in chronic stroke survivors

  • Shin, Joon-Ho;Choi, Hyun;Lee, Jung Ah;Eun, Seon-deok;Koo, Dohoon;Kim, JaeHo;Lee, Sol;Cho, KiHun
    • Physical Therapy Rehabilitation Science
    • /
    • 제6권3호
    • /
    • pp.134-139
    • /
    • 2017
  • Objective: Dual-task interference is defined as decrements in performance observed when people attempt to perform two tasks concurrently, such as a verbal task and walking. The purpose of this study was to investigate the changes of gait ability according to the dual task interference in chronic stroke survivors. Design: Cross-sectional study. Methods: Ten chronic stroke survivors (9 male, 1 female; mean age, 55.30 years; mini mental state examination, 19.60; onset duration, 56.90 months) recruited from the local community participated in this study. Gait ability (velocity, paretic side step, and stride time and length) under the single- and dual-task conditions at a self-selected comfortable walking speed was measured using the motion analysis system. In the dual task conditions, subjects performed three types of cognitive tasks (controlled oral word association test, auditory clock test, and counting backwards) while walking on the track. Results: For velocity, step and stride length, there was a significant decrease in the dual-task walking condition compared to the single walking condition (p<0.05). In particular, higher reduction of walking ability was observed when applying the counting backward task. Conclusions: Our results revealed that the addition of cognitive tasks while walking may lead to decrements of gait ability in stroke survivors. In particular, the difficulty level was the highest for the calculating task. We believe that these results provide basic information for improvements in gait ability and may be useful in gait training to prevent falls after a stroke incident.

W-CDMA 시스템을 위한 프레임 동기 단어 발생에 관한 연구 (A Study on the Generation of Frame Synchronization Words for W-CDMA System)

  • 송영준
    • 한국전자파학회논문지
    • /
    • 제15권5호
    • /
    • pp.451-460
    • /
    • 2004
  • W-CDMA 시스템의 파일럿 비트 패턴은 채널 측정 및 프레임 동기 확인에 사용된다. 본 논문은 이러한 파일럿 패턴의 프레임 동기용 이원부호를 제안한다. 프레임 동기 단어라고 불리는 이러한 이원부호의 자기 상관 및 상호 상관 특성을 이용하여 이상적인 프레임 동기 특성을 구할 수 있는 회로를 제안한다. W-CDMA시스템에서는 두 개의 수신 단말기를 갖지 않고도, 다른 주파수의 측정을 가능하게 하기 위한 압축모드(compressed mode)를 두고 있다. 이 모드에서는 10 msec의 한 프레임 시간 동안에 7 슬랏까지 전송이 중단될 수 있는데, 이러한 경우에 제안된 프레임 동기용 이원부호의 우선 쌍 간의 보완 매핑(complementary mapping) 관계를 이용하면, 이상적인 프레임 동기 특성을 유지 할 수 있음을 보인다. 그리고 우선 쌍 개념, 보완 매핑(complementary mapping) 관계, 최대장부호(maximal length sequence) 개념을 이용하여 제안된 프레임 동기 단어를 생성하는 회로에 관하여 논한다.

초등학교 6학년 국어교과서의 어휘 통계조사 (Statistical Survey of Vocabulary in Korean Textbook for Elementary School 6th-Grade)

  • 김종영;김철수
    • 한국콘텐츠학회논문지
    • /
    • 제12권5호
    • /
    • pp.515-524
    • /
    • 2012
  • 본 연구는 초등학교 6학년 국어교과서 4종(6-1 읽기, 6-1 말하기 듣기 쓰기, 6-2 읽기, 6-2 말하기 듣기 쓰기)에 나타나는 어휘들에 대한 통계(전체 음절수, 음절종류, 음절 출현빈도, 어절 개수, 어절 종류, 어절 평균길이, 어절 출현빈도, 품사 등)를 조사하였다. 한글 음절수는 194,683개, 음절종류는 1,290개, 평균 음절 출현빈도는 150.9회이다. 어절 개수는 70,185개, 어절 종류는 22,647개, 어절 평균 출현빈도는 3.1회이다. 평균 음절 길이는 2.8음절이며, 가장 긴 어절은 10음절이다. 품사는 읽기 교과는 명사가 말하기 듣기 쓰기교과는 동사가 약간 많다.