• 제목/요약/키워드: candidate role

검색결과 411건 처리시간 0.024초

Satellite-derived flow 시그널 및 인공신경망 모형을 활용한 임진강 유역 유출량 산정 (Estimation of river discharge using satellite-derived flow signals and artificial neural network model: application to imjin river)

  • ;김형록;전경수;최민하
    • 한국수자원학회논문집
    • /
    • 제49권7호
    • /
    • pp.589-597
    • /
    • 2016
  • 본 연구에서는 임진강 상류유역과 같이 수리수문학적 분석에 필요한 측정데이터가 존재하지 않거나 혹은 데이터의 확보가 어려운 유역에 대하여 위성 데이터와 데이터 기반 모형을 활용하여 유출량을 산정하였다. SDF 시그널(Satellite-derived Flow Signal)은 하도내의 유량변화에 따른 하천 폭의 변화를 반영할 수 있다고 알려져 있으며, 그 상관관계는 하도단면의 형태와 밀접한 관계가 있다. SDF 시그널 데이터와 유출량 간의 비선형 상관관계를 반영할 수 있는 인공신경망 모형을 활용하여, 모형의 입력변수인 SDF 시그널 데이터로부터 임진강의 임진교 지점에서의 유출량을 추정하였다. 15개의 위성 이미지 픽셀의 SDF 시그널 값이 0~10일의 lag가 되어 활용되었으며, lag된 데이터를 포함하여 총 150개의 변수 중 유출량과 가장 큰 관계가 있는 변수 선정을 위해 PMI(Partial Mutual Information) 기법이 활용되었다. 인공신경망 모형을 통해 산정된 유출량은 임진교에서 측정된 지점 유출량과 비교 분석되었으며, 학습(training)과 검증(validation)을 통한 상관계수는 각각 0.86, 0.72로 좋은 결과를 보여주었다. 추가적으로 SDF 시그널 데이터 외에 임진교의 1일 전 측정유량이 인공신경망 입력변수로 추가되었을 때 상관계수가 0.90, 0.83으로 증가함을 보였다. 결과로부터 계측수문자료가 부족하거나 접근 불가능한 유역에 대하여 하천 유량 변화에 대한 추정치인 SDF 시그널 데이터와 지상 데이터가 결합되었을 때 신뢰성 높은 유역의 유출량을 산정할 수 있으며, 큰 유량이 발생하는 홍수사상에 대해서도 첨두 유량과 첨두 발생시간을 잘 모의할 수 있음을 알 수 있었다. 향후 위성 데이터와 지점 데이터를 활용하여 미계측 유역의 홍수발생에 대하여 높은 정확도로 예측 가능할 것으로 기대한다.

한우 Lipoprotein Lipase 유전자 Intron 5번의 Polymorphism과 경제 형질과의 관련성 분석 (Association Between the Polymorphism on Intron 5 of the Lipoprotein Lipase Gene and Carcass Traits in Hanwoo (Korean cattle))

  • 이한주;이승환;조용민;윤호백;전봉균;오성종;권무식;윤두학
    • Journal of Animal Science and Technology
    • /
    • 제46권6호
    • /
    • pp.947-956
    • /
    • 2004
  • 생물체의 체내 지방대사에 아주 중요하게 작용하는 LPL의 유전자 구조변이가 한우의 경제형질에 미치는 효과를 구명하고자, 사람 등 포유류에서 주요한 변이부위로 인식되어 온 LPL유전자의 exon 5${\sim}$exon 6 영역에서 구조변이를 탐색하였다. 부모가 각기 다른 한우 24두를 이용하여 PCR 증폭산물 1674 bp (exon 5${\sim}$exon 6)에서 총 8 좌위의 SNP 검출하였는데, 이는 SNP 검출율이 약 1SNP/210bp로 기존 SNP 검출율 보다 비교적 높은 비율이며, 검출된 SNP들 간에 95% 이상의 높은 연관(linkage) 관계를 보여 비교적 잘 보존되어 있는 영역으로 사료된다. 그리고 검출된 SNP를 PCR-RFLP 기법을 이용하여 표현형질 기록치를 확보한 한우 33차 후대검정축 129두의 유전자형을 결정하였다. 그 결과 intron 5번의 제한효소 Hae III로 처리한 823A\longrightarrowG 변이부위가 측정된 모든 도체형질에서 유전자형에 따라 뚜렷한 차이를 보였으며, 특히 근내지방도와 통계적 유의성이 인정되었다(p<0.05). 사람 및 생쥐에서 LPL의 촉매활성부위를 암호화하는 exon 5번 및 6번에서의 변이는 LPL의 활성도에 영향을 미치며, 이는 혈액내의 중성지방농도 및 지방대사에 작용한다는 보고가 있다. 이들 변이구조와 95% 이상 강한 연관을 보이는 intron 5번의 구조변이는 근내지방도와 유의적으로 관찰되었다. 앞으로, intron 5번의 823A\longrightarrowG 변이가 어떤 근거로 근내지방도와 유의적으로 나타났는지 그 근거를 증명할 수 있는 추가적인 실험이 필요한 것으로 사료된다.

매실 추출물의 산화질소 생성과 NF-κB 활성 조절을 통한 LPS유도성 THP-1 세포 동형성 응집의 억제 효과 (Extract from Prunus mume Sieb. et Zucc. Fruit Prevents LPS-induced Homotypic Aggregation of Monocytic THP-1 Cells via Suppression of Nitric Oxide Production and NF-κB Activation)

  • 이혜림;박영숙;김현정;이아람;최지혜;피재호;박헌용;김종민
    • 생명과학회지
    • /
    • 제25권7호
    • /
    • pp.801-809
    • /
    • 2015
  • 활성화된 단핵구의 동형성 세포 부착(동형성 응집)은 염증반응, 분화, 이동과 같은 생리학적, 병리학적 과정에서 중요한 역할을 한다. 매실 추출물은 항바이러스, 항균, 항암작용과 같은 효과를 보인다고 알려 져있다. 따라서, 매실 추출물은 단핵구의 동형성 응집 억제를 통해 염증반응을 조절할 가능성을 가진다. 본 연구에서는, 염증성 질환에서 매실 추출물의 치료효능을 뒷받침할 수 있는 분자적 기전을 조사하였다. 매실 추출물이 지질다당질(LPS)로 활성화된 단핵구의 동형성 응집을 억제함을 확인하였다. 이러한 효과는 LPS로 활성화된 THP-1 세포의 iNOS 단백질 발현 억제를 통해, 산화질소(NO) 생산의 감소로 조절되는 것을 발견하였다. 또한 NO 생성물질인 SNAP 처리 실험을 통해 단핵구 동형성 응집을 억제하는데 매실에 의한 NO 억제가 필수적인 기작임을 확인하였다. 게다가, 매실 추출물은 LPS로 유도된 IκB-α 의 인산화와 NF-κB의 핵내로의 이동을 현저하게 감소시키는 것을 확인하였다. 매실 추출물은 NO생성과 NF-κB 활성 억제를 통해 LPS로 활성화된 단핵구의 동형성 응집을 저해하고 이를 통해 항염증 효과를 유도할 수 있다는 결론으로부터 만성 염증성 질환의 치료와 예방에 매실 추출물의 효능을 제시하고자 한다.

암세포에서 Retroviral Vector를 이용한 종양괴사인자 유전자 이입후 획득된 종양괴사인자 내성의 기전 (The Mechanisms of Resistance to TNF in TNF-Sensitive Cancer Cells Transfected with TNF-$\alpha$ Gene Using Retroviral Vector)

  • 이혁표;오연목;유철규;김영환;심영수;한성구
    • Tuberculosis and Respiratory Diseases
    • /
    • 제44권3호
    • /
    • pp.547-558
    • /
    • 1997
  • 연구배경 : 종양괴사인자(tumor necrosis factor ; TNF)는 다양한 생물학적 기능을 가지고 있는바, 그 중 생체외에서 증명된 뚜렷한 항암효과로 말미암아 최근 항암유전자요법의 중요한 대상으로 관심을 모으고 있다. 그러나 유전자 이입의 기술적 문제로 생체외에서 암세포에 유전자 이입을 시행한 후 이를 다시 환자의 생체내로 이식하는 방법이 연구의 주종을 이루고 있다. 그러나 저지들의 과거의 연구를 포함한 여러 연구에서 TNF가 이입된 암세포는 TNF에 대해 내성을 보이는 것으로 증명되었다. 이 획득내성의 기전을 밝히는 것이 종양생물학의 이해를 넓히고 보다 효과적인 항암유전자 요법을 개발하기 위한 매우 중요한 과제로 생각된다. 저자들은 TNF 유전자 이입에 따른 암세포의 TNF에 대한 획득 내성에 새로운 방어단백질의 합성이 관여하는 지를 규명하고자 본 실험을 수행하였다. 방 법 : TNF에 감수성을 보이는 생쥐 섬유육종 세포주인 WEHI164에 TNF-$\alpha$ 유전자를 retroviral vector를 이용하여 이입하고 TNF의 발현을 시도하여 PCR, ELISA, MTT assay로 확인하였고, TNF 유전자가 이입된 세포(WEHI164-TNF)는 TNF에 내성을 보이는지 역시 MTT assay로 검증하였다. WEHI164-TNF세포를 transcription 억제제인 actinomycin D와 translation 억제제인 cycloheximide로 처리한 후 역시 MTT assay로 TNF에 대한 감수성에 변화를 보이는지 확인하였다. 결 과 : 1) TNF-$\alpha$ 유전자 이업 및 발현 확인 PCR을 시행한 결과 TNF 유전자가 이입된 WEHI164-TNF 세포주는 790 base pair 크기의 진한 DNA band를 보인 반면 모세포주는 보이지 않아서 retroviral vector를 이용한 유전자 이입이 DNA 수준에서 이루어졌음을 확인할 수 있었다. 그리고 WEHI164-TNF의 배양상층액에서 TNF양을 ELISA와 MTT assay로 측정한 결과, 생물학적 활성을 지닌 TNF를 $10.9{\pm}1.47ng/24hr/10^6cells$ 생산함을 알 수 있었다. 2) TNF 유전자 이입 전후, 암세포의 TNF에 대한 감수성 비교 TNF 농도 100ng/ml 에서 모세포는 $73{\pm}5%$의 세포독성을 보인 반면 WEHI164-TNF 세포는 $3{\pm}2%$의 세포독성을 보여 통계적으로 유의하게 (p < 0.00) TNF에 대한 내성을 획득함을 알 수 있었다. 3) TNF 유전자 이입 후 획득된 TNF에 대한 내성의 기전 WEHI164-TNF 세포를 actinomycin D로 처리한 경우 TNF 농도 10ng/ml과 100ng/ml에서 각각 $24{\pm}7%$, $44{\pm}6%$의 세포독성을 보여 control의 $6{\pm}2%$, $17{\pm}2%$보다 통계적으로 유의하게(p < 0.01) TNF에 대한 감수성이 부분적으로 회복됨을 관찰할 수 있었다. 그러나 cycloheximide로 처리한 경우에서는 TNF에 대한 감수성에 변화를 관찰할 수 없었다. 결 론 : TNF에 감수성을 보이는 암세포주인 WEHI164에 TNF 유전자를 이입하여 TNF를 발현하게 하였을 때 그 세포 자신은 TNF에 대해 내성을 획득하게되며 이에는 미지의 방어단백질의 합성이 일부 관여할 것으로 판단된다.

  • PDF

텍스트 마이닝을 이용한 공군 부사관 지원자 자기소개서의 차별적 특성 분석 (Analyzing the discriminative characteristic of cover letters using text mining focused on Air Force applicants)

  • 권혁;김우주
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.75-94
    • /
    • 2021
  • 저출산 문제로 인한 병역자원 감소와 병 복무기간 단축에 따른 군 간부 대비 병 복무 선호 현상은 우수한 군 간부확보정책에 대한 추가적인 고찰을 필요로 한다. 이와 관련된 연구들은 대부분 사회과학에서 주로 사용되는 방법론으로 분석하였으나, 본 연구는 대량의 문헌조사에 적합한 텍스트 마이닝의 방법론으로 접근한다. 이를 위해, 본 연구는 공군 부사관 지원자 자기소개서에서 차별적인 특성의 단어들을 추출하고 합격 및 불합격의 극성을 분석한다. 본 연구는 총 3단계로 이루어졌다. 첫번째, 지원분야를 일반분야와 기술분야로 나누고, 자기소개서에서 특성을 가지는 단어들을 분야별 빈도수 비율의 차이대로 순서화 한다. 각 지원분야별 비율의 차이가 클수록 해당 지원분야의 특성을 나타내는 것으로 정의하였다. 두번째, 이 특성을 나타내는 단어들을 LDA를 통해 단어들의 Topic을 군집화하고 이를 바탕으로 Label을 정의하였다. 세번째, 이 군집화 된 지원분야별 단어들을 L-LDA를 통해 합격과 불합격의 극성을 분석하였다. L-LDA값의 차이가 합격에 가까울수록 합격자들이 많이 사용하는 단어로 정의하였다. 본 연구를 통해, 공군 부사관 자기소개서의 차별적 특성을 추출하기에는 LDA보다 L-LDA가 더 적합함을 알 수 있다. 또한, 이러한 방법론은 별도의 서면 또는 대면 설문 방식이 아니라, 대량 문서에 대한 텍스트 마이닝 기법을 적용하여 분석시간을 단축하고, 전체 모집단에 대한 신뢰성을 높일 수 있다. 따라서 본 연구인 공군 부사관 선발결과 분석을 통해, 선발제도 및 홍보제도에 활용 가능한 정보를 제공하고, 군 인력획득 분야 연구에 있어 활용 가능한 방법론을 제안하고자 한다.

신규 합성물질 (E)-3-(4-하이드록시벤질리딘)크로마논 유도체의 티로시나아제 효소활성 저해 및 멜라닌 생성 억제 효과 (A Novel Synthesized Tyrosinase Inhibitor, (E)-3-(4-hydroxybenzylidene) chroman-4-one (MHY1294) Inhibits α-MSH-induced Melanogenesis in B16F10 Melanoma Cells)

  • 전혜영;이슬아;양성욱;방은진;유일영;박유진;정희진;정해영;문형룡;이재원
    • 생명과학회지
    • /
    • 제31권8호
    • /
    • pp.719-728
    • /
    • 2021
  • 멜라닌 색소는 포유동물의 피부, 머리카락, 눈, 신경계에 풍부하게 존재한다. 멜라닌은 다양한 환경적 스트레스로부터 피부를 보호하며, 생리학적 산화-환원 완충 작용을 통해 항상성을 유지한다. 그러나, 과도한 멜라닌 축적은 간반, 주근깨, 노인성 흑자, 염증성 색소침착을 일으킬 수 있다. 티로시나아제는 멜라닌의 생합성 경로 조절에 아주 중요한 역할을 하는 것으로 알려져 있다. 티로시나아제의 활성을 저해하는 다양한 미백제가 개발되었지만 알러지, DNA손상, 세포독성, 돌연변이 유발 등을 야기하는 부작용으로 인해 임상적 적용이 제한되었다. 본 논문에서 여러 4-크로마논 유도체를 합성하여 티로시나아제 억제 활성을 조사하였다. 이들 화합물 중 MHY1294는 IC50가 5.1±0.86 μM으로 양성 대조군인 코직산(14.3±1.43 μM) 보다 나은 티로시나아제 효소 억제 활성을 나타냈다. 또한 MHY1294는 티로시나아제의 촉매 부위에서 경쟁적인 억제 작용을 보였으며 코직산보다 더 큰 기질 결합 친화성을 가지는 것으로 확인되었다. 뿐만 아니라, MHY1294는 B16F10 흑색종 세포에서 멜라닌 세포 자극 호르몬 (α-MSH)에 의해 유도되는 멜라닌 합성과 세포 내 티로시나아제 활성을 유의적으로 억제하였다. 결론적으로 본 연구는 MHY1294가 과도한 멜라닌 축적에 대한 약물 제제 및 미백제로서의 개발 가능성이 있음을 시사한다.

캄보디아 농업투자 환경에 관한 연구 (Research on the Circumstance for Agricultural Investment of Cambodia)

  • 이규성;배동진;김성남;강영신
    • 한국국제농업개발학회지
    • /
    • 제23권5호
    • /
    • pp.475-484
    • /
    • 2011
  • 최근 글로벌기업들의 신흥국 시장 쟁탈전이 격화되고 중국의 곡물수출이 금지되고 있는 상황에서 새로운 시장으로 지리적으로 아세안의 중심에 있는 캄보디아가 주목받고 있다. 캄보디아는 최근 몇 년 동안 정부의 적극적인 개혁정책으로 고도의 성장을 이루었고, 개방적인 시장경제체제를 유지하며 해외투자자본 유치에 적극적으로 힘쓰고 있다. 특히 농업은 캄보디아의 근본적인 가난과 빈곤을 해결해줄 가장 중요한 산업으로 정부 차원에서 많은 지원이 이루어지고 있다. 따라서 본 연구를 통해서 대캄보디아 투자에 관심이 많은 한국투자자들에게 유익한 정보를 제공하고자 수행한 결과는 다음과 같다. 1. 캄보디아는 농업에 적합한 기후와 자연환경, 저렴한 인건비와 큰 잠재력을 가진 매력적인 투자처로서 각광을 받고 있고 우리나라 농산업체들도 많이 진출하고 있지만 대상국의 정치적, 경제적, 사회적 여건, 법제도, 양국간의 협력관계 등 철저한 사전조사가 선행되어야 할 것이다. 2. 캄보디아는 열악한 인프라와 관개시설의 미비, 만연한 부정부패, 사회문화적 차이로 인한 인력 운용 등의 문제점들을 해소하기 위해서는 농업 인프라 조성에 KOICA와 연계한 지원이 필요하고, 기술적으로는 KOPIA같은 해외농업개발을 위한 전문 기관과 연계한 인력 양성이 필수적이다. 3. 캄보디아는 현재 외국의 투자자들이 원활히 투자할 수 있도록 투자관련 기관을 총리실 직속으로 두는 등 법과 제도를 정비해 나가고 있다. 그러나 법과 제도의 운영이 법에 따라 시행되지 못하고 있는 점 등을 감안하여, 정부차원 뿐만 아니라 민간기업과 힘을 합쳐 투자 전에 철저한 조사와 분석이 필요할 것이다. 4. 한국의 해외식량기지 건설은 정부와 기업체 그리고 우리 국민들의 관심과 지원이 필요하다. 이제는 농업을 단순히 하나의 상품을 생산하는 여러 산업 중 하나가 아니라 국가의 전략적 산업의 하나로 바라볼 때이다.

김해 봉황동 유적 일대 출토 삼국시대 초기 기와 검토 (A Study on Tile from the Early Period of the Three Kingdoms Period Excavated in Bonghwang-dong)

  • 윤선경;김지연
    • 헤리티지:역사와 과학
    • /
    • 제56권4호
    • /
    • pp.40-52
    • /
    • 2023
  • 기와라는 건축 재료는 기본적으로 방수와 방습을 목적으로 하며, 중요 건축물에만 사용이 제한되어 권위까지 보여준다. 특히 출토 사례가 드문 삼국시대에는 더욱이 그럴 것이다. 그마저도 신라, 백제 지역의 유적에서 확인된 기와가 대부분이다. 현재까지 가야 지역에서 확인된 기와 중에서 가장 오래된 제작기법을 보이는 부원동 유적 출토 기와 이래로 금관가야 왕궁지로 추정되는 김해 봉황동 유적에서 최근 삼국시대 초기 기와가 출토되었다. 이들은 금관가야의 고도인 김해 지역 초기 기와의 양상을 살펴볼 수 있는 중요한 자료이다. 봉황동 유적 일대에서 출토된 기와는 연질 소성의 세석립이 일부 포함된 적· 황갈색 계통의 색조를 띠며, 두께가 얇다. 내면에는 포목흔이 확인되지 않으며, 점토띠 흔적이 보인다. 내· 외면에 타날흔 및 목리흔이 뚜렷하게 관찰되며, 깎기조정 및 물손질흔과 내면에 내박자흔도 확인된다. 이를 통해 무와통작법의 토기 제작방식과 동일하게 만들어졌음을 알 수 있다. 가야 토기를 제작하던 도공집단의 계통과 연결시켜 본다면, 고령 송림리, 인천 불로동, 경주 손곡동·천리 유적 등과 같이 와도겸업(瓦陶兼業)이 이루어졌을 것으로 추정된다. 현재까지 김해 지역 출토 기와는 김해 분지 일원의 금관가야 도성(왕성)으로 추정되는 범위 내에서만 확인되었으며, 이는 의미하는 바가 크다. 문헌기록과 지금까지의 발굴조사 성과 및 입지적 경관 등을 통해 보았을 때, 봉황동 유적 일대는 금관가야 도성 후보지로 유일하며, 출토된 기와의 존재를 통해서도 이러한 면모를 보여주기 충분하다. 이 시기 기와는 소량 출토되는 점 등으로 미루어 보아, 지붕자재로써의 기능보다는 상징적 의미를 지닌 위세품으로서의 역할이 더욱 컸을 것이며, 사용 범위의 제한 및 통제가 엄격히 이루어졌던 것으로 추정된다.

입력변수 및 학습사례 선정을 동시에 최적화하는 GA-MSVM 기반 주가지수 추세 예측 모형에 관한 연구 (A Study on the Prediction Model of Stock Price Index Trend based on GA-MSVM that Simultaneously Optimizes Feature and Instance Selection)

  • 이종식;안현철
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.147-168
    • /
    • 2017
  • 오래 전부터 학계에서는 정확한 주식 시장의 예측에 대한 많은 연구가 진행되어 왔고 현재에도 다양한 기법을 응용한 예측모형들이 연구되고 있다. 특히 최근에는 딥러닝(Deep-Learning)을 포함한 다양한 기계학습기법(Machine Learning Methods)을 이용해 주가지수를 예측하려는 많은 시도들이 진행되고 있다. 전통적인 주식투자거래의 분석기법으로는 기본적 분석과 기술적 분석방법이 사용되지만 보다 단기적인 거래예측이나 통계학적, 수리적 기법을 응용하기에는 기술적 분석 방법이 보다 유용한 측면이 있다. 이러한 기술적 지표들을 이용하여 진행된 대부분의 연구는 미래시장의 (보통은 다음 거래일) 주가 등락을 이진분류-상승 또는 하락-하여 주가를 예측하는 모형을 연구한 것이다. 하지만 이러한 이진분류로는 추세를 예측하여 매매시그널을 파악하거나, 포트폴리오 리밸런싱(Portfolio Rebalancing)의 신호로 삼기에는 적합치 않은 측면이 많은 것 또한 사실이다. 이에 본 연구에서는 기존의 주가지수 예측방법인 이진 분류 (binary classification) 방법에서 주가지수 추세를 (상승추세, 박스권, 하락추세) 다분류 (multiple classification) 체계로 확장하여 주가지수 추세를 예측하고자 한다. 이러한 다 분류 문제 해결을 위해 기존에 사용하던 통계적 방법인 다항로지스틱 회귀분석(Multinomial Logistic Regression Analysis, MLOGIT)이나 다중판별분석(Multiple Discriminant Analysis, MDA) 또는 인공신경망(Artificial Neural Networks, ANN)과 같은 기법보다는 예측성과의 우수성이 입증된 다분류 Support Vector Machines(Multiclass SVM, MSVM)을 사용하고, 이 모델의 성능을 향상시키기 위한 래퍼(wrapper)로서 유전자 알고리즘(Genetic Algorithm)을 이용한 최적화 모델을 제안한다. 특히 GA-MSVM으로 명명된 본 연구의 제안 모형에서는 MSVM의 커널함수 매개변수, 그리고 최적의 입력변수 선택(feature selection) 뿐만이 아니라 학습사례 선택(instance selection)까지 최적화하여 모델의 성능을 극대화 하도록 설계하였다. 제안 모형의 성능을 검증하기 위해 국내주식시장의 실제 데이터를 적용해본 결과 ANN이나 CBR, MLOGIT, MDA와 같은 기존 데이터마이닝 기법들이나 인공지능 알고리즘은 물론 현재까지 가장 우수한 예측 성과를 나타내는 것으로 알려져 있던 전통적인 다분류 SVM 보다도 제안 모형이 보다 우수한 예측성과를 보임을 확인할 수 있었다. 특히 주가지수 추세 예측에 있어서 학습사례의 선택이 매우 중요한 역할을 하는 것으로 확인 되었으며, 모델의 성능의 개선효과에 다른 요인보다 중요한 요소임을 확인할 수 있었다.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.