• 제목/요약/키워드: Corpus Analysis

검색결과 424건 처리시간 0.028초

A Deterministic Method for Structural Analysis of Compound Words in Japanese

  • Han, Dongli;Ito, Takeshi;Furugori, Teiji
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 Language, Information, and Computation Proceedings of The 16th Pacific Asia Conference
    • /
    • pp.79-91
    • /
    • 2002
  • Structural analysis of compound words is necessary and an important process in natural language processing. Proposed here is a corpus- and statistics- based method for the structural analysis of compound words in Japanese. We determine the structure of a compound word by using Internet corpus and calculating the strength of word association among its constituent words. Experiments with 5, 6, 7, and 8 kanji compound words show that our method works well and its performance is better than those of other comparable studies.

  • PDF

창업 온톨로지 구축을 위한 벤처창업 연구의 지식구조 분석 (An Analysis of the Intellectual Structure of Venture-Creation Studies to build an Entrepreneurship Ontology)

  • 심재후;최명길
    • 지식경영연구
    • /
    • 제14권4호
    • /
    • pp.75-86
    • /
    • 2013
  • The deeping interests and research toward Entrepreneurship, which is considered as an potential alternative for solving the continuing economic recession in the $21^{st}$ century, have grown. The process and methodology of the research could not be systematically arranged and the results of the research lack in efforts on the application of increasing suceess ratio in starting new business. This study adopted corpus methodology, through which we try to analyzes the knowledge structure in entrepreneurship research, derive essential concepts and the consisting domains in venture research. Based on the results of analysis, this study constructs the knowledge structure of venture research in a form of knowledge ontology. The results of the study could be a ground for entrepreneurship research and utilized as implication for a creation of construction for the entrepreneurship knowledge ontology.

  • PDF

기억성 경도인지장애 및 알츠하이머 치매 환자에서 해마, 편도체, 뇌들보, 내후각 피질과 혈중 지질, 호모시스테인, 엽산 농도와의 연관성 (The Correlation of Levels of Serum Lipid, Homocysteine, and Folate with Volumes of Hippocampus, Amygdala, Corpus Callosum, and Thickness of Entorhinal Cortex in Patients with Amnestic Mild Cognitive Impairment or Dementia of Alzheimer's Type)

  • 이상준;김태형;허량;최승은;이봉주;김경미;이정구;김홍대;문치웅;김영훈
    • 생물정신의학
    • /
    • 제22권4호
    • /
    • pp.223-232
    • /
    • 2015
  • Objectives In this study, the authors evaluated the correlation between levels of serum lipid, homocysteine, and folate with volumes of hippocampus, amygdala, corpus callosum, and in patients with amnestic mild cognitive impairment (aMCI) or Alzheimer's disease (AD) type. Methods The study recruited patients who visited the dementia clinic of Haeundae Paik Hospital in Korea between March 2010 and June 2014. Among those, patients who had taken the neurocognitive test, brain magnetic resonance imaing, tests for serum lipid, homocysteine, folate, and apolipoprotein E (APOE) genotyping and diagnosed with aMCI or AD were included for analysis. Bilateral hippocampus, entorhinal cortex, amygdala and corpus callosum were selected for region of interest (ROI). The cross-sectional relationships between serum lipid, homocysteine, folate and ROI were assessed by partial correlation analysis and multiple linear regression analysis. Results In patients with aMCI, old age (> 80) and APOE ${\varepsilon}4$ carrier were associated with AD [odds ration (OR) : 12.80 ; 95% confidence interval (CI) : 2.25-72.98 and OR : 4.48 ; 95% CI : 1.58-12.67, respectively]. In patients with aMCI or AD, volumes and thickness of ROI were inversely correlated with levels of serum lipid and homocysteine. In multiple linear regression analyses, higher total cholesterol level was related to lower left, right hippocampus volume and left amygdala volume ; higher low-density lipoprotein cholesterol was related to lower right entorhinal cortex thickness ; higher homocysteine level was related to lower corpus callosum volume. Conclusions Higher serum lipid and homocysteine levels are associated with decreased volume of hippocampus, amygdala, corpus callosum and entorhinal cortex thickness in patients with aMCI or AD. These findings suggest that serum lipid and homocysteine levels are associated with AD as a modifiable risk factor.

한국어 형태소 분석을 위한 효율적 기분석 사전의 구성 방법 (Construction of an Efficient Pre-analyzed Dictionary for Korean Morphological Analysis)

  • 곽수정;김보겸;이재성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권12호
    • /
    • pp.881-888
    • /
    • 2013
  • 기분석 사전은 형태소 분석기의 속도와 정확도를 향상시키고, 과분석을 줄이기 위해 사용된다. 하지만 기분석 사전에 저장된 어절 중에 저장된 형태소 분석 결과가 부족한 어절, 즉 불충분 분석 어절이 존재할 경우 오히려 형태소 분석기의 정확도를 떨어뜨리는 원인으로 작용할 수 있다. 본 논문에서는 세종 형태 분석 말뭉치(문어체, 2011)를 이용해 말뭉치의 크기와 어절 빈도의 변화에 따라 사전의 정답 제시율이 변화하는 양상을 측정하였다. 그리고 통계기반의 형태소 분석기인 SMA와 기분석 사전을 결합한 통합 시스템을 구성하여 기분석 사전의 충분 분석률이 99.82% 이상일 때 시스템 전체 성능이 향상되는 것을 확인하였다. 또한 160만 어절의 말뭉치를 이용할 때는 32회 이상 출현한 어절로, 630만 어절로 구성된 말뭉치를 이용할 때는 64회 이상 출현한 어절로 사전을 구성하는 것이 통합 시스템의 성능을 가장 높게 할 수 있었다.

트위터 문서에서 시간 및 리트윗 분석을 통한 핵심 사건 추출 (Extracting Core Events Based on Timeline and Retweet Analysis in Twitter Corpus)

  • ;이경순
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권1호
    • /
    • pp.69-74
    • /
    • 2012
  • 인터넷 사용자들은 어떠한 이슈에 대해 소셜 네트워크 서비스를 통해 빠르고 간결하게 다른 사람들과 지속적인 커뮤니케이션을 원한다. 사회적 이슈에 대해 어떠한 사건이 일어나게 되면 그날의 트윗 글과 리트윗 개수에 영향을 미치게 된다. 본 논문에서는 트위터 자료에서 사회적인 핵심 사건을 추출하기 위해 시간 분석과 감성 자질 및 리트윗 정보를 이용하는 방법을 제안한다. 제안 방법의 유효성을 검증하기 위해 비교실험으로 어휘 빈도수를 이용하여 핵심 사건을 추출하는 방법, 어휘 빈도수와 감성 자질을 함께 이용한 방법, 시간 분석을 반영하기 위해 카이제곱만을 이용한 방법과 제안 방법인 어휘 빈도수, 감성 자질, 리트윗 및 카이제곱을 함께 이용한 방법으로 성능을 비교하였다. 성능 평가를 위해서는 추출된 사건리스트에서 상위 10개 결과에서 정확도를 계산하였는데, 제안 방법이 94.9%의 성능을 보였다. 실험을 통해 제안한 방법이 핵심 사건 추출에 효과적인 방법임을 알 수 있다.

판별분석을 통해 살펴본 영어 능력 수준을 구별하는 어휘의 정교화 특성 (Lexical Sophistication Features to Distinguish the English Proficiency Level Using a Discriminant Function Analysis)

  • 이영주
    • 문화기술의 융합
    • /
    • 제8권5호
    • /
    • pp.691-696
    • /
    • 2022
  • 본 연구는 영어 능력 수준을 구별할 수 있는 어휘적 정교화 특징이 무엇인지를 자동화된 어휘 분석 프로그램인 TAALES를 활용하여 탐색하였다. 300명의 한국 대학생이 쓴 총 600개의 에세이가 ICNALE 코퍼스에서 추출되었고 SPSS 프로그램의 판별 분석이 수행되었다. 판별 분석 결과 한국 대학생을 상. 중. 하의 세 개의 영어 능력 수준으로 유의미하게 구분하는 어휘 특성은 SUBTLEXUS 코퍼스의 내용어 빈도, 내용어의 어휘 습득 연령, 기능어의 어휘 결정 반응 평균 시간, 상위어 동사로 나타났다. 영어 능력 수준이 높은 상 수준 학생은 SUBTLEXUS 코퍼스에 빈번하게 나오는 어휘는 많이 사용하지 않았고, 어휘 습득 연령이 높고 어휘 결정 과업에서 평균 반응시간이 길게 나타난 정교화된 어휘와 구체적인 동사를 많이 사용한 특징이 있다.

Pragmatic Strategies of Self (Other) Presentation in Literary Texts: A Computational Approach

  • Khafaga, Ayman Farid
    • International Journal of Computer Science & Network Security
    • /
    • 제22권2호
    • /
    • pp.223-231
    • /
    • 2022
  • The application of computer software into the linguistic analysis of texts proves useful to arrive at concise and authentic results from large data texts. Based on this assumption, this paper employs a Computer-Aided Text Analysis (CATA) and a Critical Discourse Analysis (CDA) to explore the manipulative strategies of positive/negative presentation in Orwell's Animal Farm. More specifically, the paper attempts to explore the extent to which CATA software represented by the three variables of Frequency Distribution Analysis (FDA), Content Analysis (CA), and Key Word in Context (KWIC) incorporate with CDA decipher the manipulative purposes beyond positive presentation of selfness and negative presentation of otherness in the selected corpus. The analysis covers some CDA strategies, including justification, false statistics, and competency, for positive self-presentation; and accusation, criticism, and the use of ambiguous words for negative other-presentation. With the application of CATA, some words will be analyzed by showing their frequency distribution analysis as well as their contextual environment in the selected text to expose the extent to which they are employed as strategies of positive/negative presentation in the text under investigation. Findings show that CATA software contributes significantly to the linguistic analysis of large data texts. The paper recommends the use and application of the different CATA software in the stylistic and corpus linguistics studies.

이하두정방사선사진과 측모두부방사선사진상에서의 계측치 상호연관성에 관한연구 (A STUDY ON THE CORRELATIONSHIP OF SUBMENTOVERTEX VIEW AND LATERAL CEPHALOGRAM MEASUREMENTS)

  • 조재형;유영규
    • 대한치과교정학회지
    • /
    • 제26권4호
    • /
    • pp.414-420
    • /
    • 1996
  • 방사선 사진상에서의 계측치 자체가 이차원적인 면만을 나타낼수밖에 없어 실제 삼차원적인 구조물인 두개안면부위의 특징을 정확히 묘사하기는 어려움이 있다. 이에 따라 한 평면과 다른 평면을 연계시켜 보다 3차원적인 측면의 많은 연구가 시행되어져 왔으며, 이들 두 평면간의 상호연관성에도 관심이 모아지고 있다. 본 연구에서는 부정교합과 밀접한 영향을 가질뿐 아니라, 성장의 변화를 예측할수 있게하고 치료방법,예후 결정등에 중요한 영향을 미치는 안모유형지수와 이하두정 방사선 사진상에서의 여러 계측치간의 상호연관성을 평가하여 보았다. 골격성 ClassI의 양호한 안모를 가진 성인을 대상으로 측모두부방사선사진 이하 두정 방사선계측사진을 촬영하여 이들간의 상관관계를 알아보아 다음과 같은 결론을 얻었다. 1. 과두의 평균경사도에 영향을 주는 요소를 알아보기 위해 FACE,INT-CO-ANG, MN-CORPUS, CON-RATIO, GON-RATIO, MN-RATIO, MX-RATIO를 변수로하여 다중회귀분석 결과, 아래의 회귀 방정식을 얻었다. CON-AVE는 .173(FACE) -0.322 (INT-CO-ANG) +36.34 (GON-RATIO)+0.420(MN-CORPUS)로 나타났다($R^2=.85451$) 2. 안모유형지수에 대해선 아래의 희귀방정식을 얻었다. FACE=.050(CON-ANG)+.023(INT-CO-ANG)-.075(MN-CORPUS) ( 2. 안모유형지수에 대해선 아래의 희귀방정식을 얻었다. FACE=.050(CON-ANG)+.023(INT-CO-ANG)-.075(MN-CORPUS) ($R^2=.31547$) 3. 이하두정 방사선사진상의 계측치들중 MN-CORPUS, CON-RATIO, GON-RATIO, MN-RATIO, MX-RATIO는 서로 밀접한 상관관계를 보였다.(P<0.05) 4. 하악과두의 평균경사도는 우측에선 $23.67^{\circ}$, 좌측에선 $20.71^{\circ}$로 나타났고, 좌,우측값에서 차이를 보이고 있다. FACE : 안모 유형지수. CON-ANG : 하악과두경사도의 평균값. CON-AVE : 좌,우 하악파두경사도의 평균값. INT-CO-ANG : 좌,우 하악과두장축이 이루는 각도. MN-CORPUS : 좌,우Gonion에서 Pog.까지 이은 선에 의해 형성되는 각도. CON-RATIO: intercondylar distance/mandibular body length. GON-RATIO: intergonion distance/mandibular body length. MN-RATIO : intermylohyoid distance/mandibular body length. MX-RATIO: intermaxillary tuberosity distance/ANS-PNS distance.

  • PDF

Wallerian Degeneration of Insufficiently Affected White Matters in Old Infarction: Tract of Interest Analysis of Diffusion Tensor Imaging

  • Choi, Chi-Hoon;Lee, Jong-Min;Koo, Bang-Bon;Park, Jun-Sung;Kwon, Jun-Soo;Kim, Sun-I.
    • 대한의용생체공학회:의공학회지
    • /
    • 제28권3호
    • /
    • pp.317-324
    • /
    • 2007
  • The application of diffusion tensor imaging (DTI) and fiber tractography to Wallerian degeneration (WD) is important because this technique is a very potent tools for quantitatively evaluating fiber tracts in vivo brain. We analyzed a case and control using tracts of interest (TOI) analysis to quantify WD. We scanned a case of old infarction and an age-matched healthy volunteer. T1 magnetization prepared rapid acquisition gradient echo (MPRAGE), fluid attenuated inversion recovery (FLAIR) and 12-direction diffusion tensor imaging (DTI) were obtained and analyzed using TOI analysis. The value of mean diffusity ($D_{av}$) and fracional anisotrophy (FA) were analyzed statistically by MWU test. A p-value of less than 0.05 was considered to indicate statistical significance. A comparison of the global fiber diffusion characteristics shows WD of both the corpus callosum and the ipsilateral superior longitudinal fasciculus. The corpus callosum in particular showed trans-hemispherical degeneration. Local fiber characteristics along the geodesic paths show WD in the corpus callosum, ipsilateral superior longitudinal fasciculus, ipsilateral corticospinal tract, and ipsilateral corticothalamic tract. We have demonstrated changes in $D_{av}$ and FA values and a clear correspondence with the WD in various tracts. TOI analysis successfully revealed radial WD in white matter tracts from a region of encephalomalacia and primary gliosis, although they were only slightly affected.

A Corpus-Based Study on Korean EFL Learners' Use of English Logical Connectors

  • Ha, Myung-Jeong
    • International Journal of Contents
    • /
    • 제10권4호
    • /
    • pp.48-52
    • /
    • 2014
  • The purpose of this study was to examine 30 logical connectors in the essay writing of Korean university students for comparison with the use in similar types of native English writing. The main questions addressed were as follows: Do Korean EFL students tend to over- or underuse logical connectors? What types of connectors differentiate Korean learners from native use? To answer these questions, EFL learner data were compared with data from native speakers using computerized corpora and linguistic software tools to speed up the initial stage of the linguistic analysis. The analysis revealed that Korean EFL learners tend to overuse logical connectors in the initial position of the sentence, and that they tend to overuse additive connectors such as 'moreover', 'besides', and 'furthermore', whereas they underuse contrastive connectors such as 'yet' and 'instead'. On the basis of the results of this study, some pedagogical implications are made concerning the need for teaching of the semantic, stylistic, and syntactic behavior of logical connectors.