• 제목/요약/키워드: Text processing

검색결과 1,202건 처리시간 0.029초

인트라넷에서 가상데이터베이스를이용한 데이터베이스 검색 시스템의 설계 (Design for Database Retrieval System using Virtual Database in Intranet)

  • 이동욱;박영배
    • 한국정보처리학회논문지
    • /
    • 제5권6호
    • /
    • pp.1404-1417
    • /
    • 1998
  • 현재 웹을 통하여 인터넷 데이터베이스를 검색하는 방법에는 검색 엔진 기술을 이용한 방법과, 둘째 플러그인 기술이나 엑티브엑스 기술을 이용한 검색 방법으로 나눌 수 있다. 검색 엔진을 이용하는 방법은 단순 문서와 같은 대량의 텍스트 데이터를 키워드와 같은 인덱스를 구축하고 이를 이용하여 검색하는 방법으로서, 문제점은 하나 이상의 데이터베이스를 동시에 검색하지 못하고 또 질의어와 같은 다양한 형태의 조건 검색을 할 수가 없으며, 사용자의 요구에 맞지 않는 데이터가 많이 전송된다는 즉, 정확성이 낮다는 세 가지 점을 들 수 있다. 플러그인 기술이나 액티브엑스 기술을 이용하는 방법은 웹 화면상에서 DBMS를 이용하여 클라이언트의 질의를 실행시켜 데이터베이스를 검색하는 방법으로서, 문제점은 동일한 데이터모델의 경우라도 하나 이상의 DBMS를 동시에 기동시킬 수 없고 또 클라이언트 프로그램에서 미리 정의된 질의 이외의 다양한 종류의 질의를 할 수 없다는 두 가지 점을 들 수 있다. 본 논문에서는 이러한 문제점들을 해결하기 위해서 인터넷/인트라넷상에서 새로운 개념으로 작성한 가상데이터베이스를 이용하여 웹 화면을 통해서 다양한 종류의 질의를 직접 할 수 있는 데이터베이스 검색 시스템을 설계하는 데에 있다. 여기서, 가상데이터베이스는 동일한 관계데이터 모델로서 하나 이상의 관계 DBMS를 사용하는 것으로 가정한다.

  • PDF

칼라공간과 키워드를 이용한 내용기반 화상검색 시스템 설계 및 구현 (A Design and Implementation of a Content_Based Image Retrieval System using Color Space and Keywords)

  • 김철원;최기호
    • 한국정보처리학회논문지
    • /
    • 제4권6호
    • /
    • pp.1418-1432
    • /
    • 1997
  • 일반적인 내용기반 화상 검색 기법은 검색 인덱스로서 칼라와 텍스쳐를 사용하며, 칼라기법인 칼라히스토그램과 칼라쌍 검색 기법은 공간정보와 텍스트가 부족하다. 따라서 본 논문은 칼라공간과 키워드를 결합한 내용 기반 화상 검색시스템을 설계하고 구현하였다. 화상검색을 위한 전처리기에서는 기존의 HSI(Hue, Saturation, Intensity) 좌표계를 사용하였고, 화상으로부터 색채 영역과 비색채영역을 검출해 내었다. 화상의 크시는 200*N 또는 N*200으로 정규화하고 256칼라로 변환시킨다. 칼라 공간으로 칼라 선택을 결정하기 위해서는 배경과 색채를 위한 2개의 칼라히스토그램을 사용한다. 공간정보는 최대 엔트로피 이산화를 사용함으로써 얻어진다. 키워드는 화상의 종류, 칼라, 모양, 위치, 크기를 선택 가능하도록 했으며, 입력되는 색채에 대해서는 한국 공업 규격의 유채색과 무채색 15가지 색으로 제한하였다. 화상검색 방법은 유사도 검색의 특징 키로 사용하였고, 화상 검색시 특정 성분의 가중치에 따른 검색을 위해 사용자는 질의어 입력시 칼라공간 ${\alpha}(%),\;키워드\;{\beta}(%)$등의 가중치를 화상 내용 특징에 따라 그 값을 조절하여 부여할 수 있는 방안을 개발하였다. 질의 화상에 대한 칼라공간, 키워드와 같은 추출된 특징중 하나의 특징으로 검색 실험한 결과는 가중치를 부여하여 실험한 결과보다 검색 효율이 낮았으며 가중치를 부여한 경우 측정된 파라메타의 평균치는 Precision(0.858), Recall(0.936), RT(1), MT(0)를 보임으로써 칼라공간, 키워드 내용기반 화상 검색 시스템들 보다 높은 검색 효율을 입증해 보였다.

  • PDF

작성자 분석과 CNN을 적용한 소스 코드 작성자 식별 프레임워크 (The Identification Framework for source code author using Authorship Analysis and CNN)

  • 신건윤;김동욱;홍성삼;한명묵
    • 인터넷정보학회논문지
    • /
    • 제19권5호
    • /
    • pp.33-41
    • /
    • 2018
  • 최근 인터넷 기술이 발전함에 따라 다양한 프로그램들이 만들어지고 있고 이에 따라 다양한 코드들이 많은 사람들을 통해 만들어진다. 이러한 측면을 이용하여 특정 작성자가 작성한 코드들 그대로 가져가 자신이 작성한 것처럼 보여주거나, 참고한 코드들에 대한 정확한 표기 없이 그대로 사용하여 이에 대한 보호가 점차 어려워지고 있다. 따라서 본 논문에서는 작성자 분석 이론과 합성곱 신경망 기반 자연어 처리 방법을 적용한 작성자 식별 프레임워크룰 제안한다. 작성자 분석 이론을 적용하여 소스 코드에서 작성자 식별에 적합한 특징들을 추출하고 이를 텍스트 마이닝에서 사용하고 있는 특징들과 결합하여 기계학습 기반의 작성자 식별을 수행한다. 그리고 합성곱 신경망 기반 자연어 처리 방법을 소스 코드에 적용하여 코드 작성자 분류를 수행한다. 본 논문에서는 작성자 분석이론과 합성곱 신경망을 적용한 작성자 식별 프레임워크를 통해 작성자를 식별하기 위해서는 작성자 식별만을 위한 특징들이 필요하다는 것과 합성곱 신경망 기반 자연어 처리 방법이 소스 코드등과 같은 특수한 체계를 갖추고 있는 언어에서도 적용이 가능하다. 실험 결과 작성자 분석 이론 기반 작성자 식별 정확도는 95.1%였으며 CNN을 적용한 결과 반복횟수가 90번 이상일 경우 98% 이상의 정확도를 보여줬다.

장비점검 일지의 비정형 데이터분석을 통한 고장 대응 효율화 사례 연구 (Unstructured Data Analysis using Equipment Check Ledger: A Case Study in Telecom Domain)

  • 주연진;김유신;정승렬
    • 인터넷정보학회논문지
    • /
    • 제21권1호
    • /
    • pp.127-135
    • /
    • 2020
  • 비정형 데이터의 수집, 분석 그리고 활용에 대한 필요성이 대두되고 있지만 여전히 비정형 데이터를 효과적으로 활용하지 못하고 있는 실정이다. 본 연구에서는 국내 유수 이동통신 기업의 통신 시설장비 점검 시스템에 기록된 비정형데이터를 분석하여 장비고장 대응과 예방에 적극 활용할 수 있는 기반을 만들고자 하였고, 약 220만 건의 작업일지 데이터를 텍스트 마이닝을 통해 구조화/정형화 하였다. 이를 위해 장비 고장과 관련된 4가지 분석 프레임, 고장인지, 고장원인, 고장대상, 조치결과를 구성하였고 분석 결과로는 크게 3가지의 효율화 방안과 관련한 인사이트를 얻을 수 있었다. 첫 번째로는 신속한 조치를 통한 시간 단축을 도모하고, 두 번째로는 고장장비 Unit 수요를 예측하고, 마지막으로 현장 출동의 최소화를 지원할 수 있을 것으로 기대되었다. 결론적으로, 본 사례연구는 통신시설 장비 고장 대응을 위해 데이터 분석 대상을 정형 데이터뿐만 아니라 장비일지라는 비정형 빅데이터로도 범위를 확장했으며, 이를 분석에 활용하기 위해 처음으로 텍스트 마이닝을 시도를 했다는데 의의를 가진다. 또한 N사는 정형 데이터 뿐 만아니라 년 80만 건씩 축적되던 비정형 데이터의 활용 가치를 확인할 수 있던 기회를 가졌으며, 향후 비정형 데이터의 활용 방안에 대한 발전방향 그리고 추후의 정형 데이터와의 연계 분석 방안 등에 대한 가이드를 확보할 수 있었다.

제스처 인식 기반의 인터랙티브 미디어 콘텐츠 제작 프레임워크 구현 (Implementation of Interactive Media Content Production Framework based on Gesture Recognition)

  • 고유진;김태원;김용구;최유주
    • 방송공학회논문지
    • /
    • 제25권4호
    • /
    • pp.545-559
    • /
    • 2020
  • 본 논문에서는 사용자의 제스처에 따라 반응하는 인터랙티브 미디어 콘텐츠를 프로그래밍 경험이 없는 사용자가 쉽게 제작할 수 있도록 하는 콘텐츠 제작 프레임워크를 제안한다. 제안 프레임워크에서 사용자는 사용하는 제스처와 이에 반응하는 미디어의 효과를 번호로 정의하고, 텍스트 기반의 구성 파일에서 이를 연결한다. 제안 프레임워크에서는 사용자의 제스처에 따라 반응하는 인터랙티브 미디어 콘텐츠를 사용자의 위치를 추적하여 프로젝션 시키기 위하여 동적 프로젝션 맵핑 모듈과 연결하였다. 또한, 제스처 인식을 위한 처리 속도와 메모리 부담을 줄이기 위하여 사용자의 움직임을 그레이 스케일(gray scale)의 모션 히스토리 이미지(Motion history image)로 표현하고, 이를 입력 데이터로 사용하는 제스처 인식을 위한 합성곱 신경망(Convolutional Neural Network) 모델을 설계하였다. 5가지 제스처를 인식하는 실험을 통하여 합성곱 신경망 모델의 계층수와 하이퍼파라미터를 결정하고 이를 제안 프레임워크에 적용하였다. 제스처 인식 실험에서 97.96%의 인식률과 12.04 FPS의 처리속도를 획득하였고, 3가지 파티클 효과와 연결한 실험에서 사용자의 움직임에 따라 의도하는 적절한 미디어 효과가 실시간으로 보임을 확인하였다.

실어증 환자의 접속사 정보처리에 관한 연구 (Text integration processing based on connectives in Aphasics)

  • 김수정;문영선;김미라;김윤정;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.441-446
    • /
    • 1999
  • 본 연구는 접속사를 통한 텍스트 통합 과정이 논리적 추론 종류에 따라 다른 정보처리 과정 혹은 다른 종류의 단원적 구조(modular structure in language processing)에 의해 처리되는지를 조사하기 위해 실시되었다. 또한, 접속사를 통한 추론 과정이 실어증의 증상 종류에 따라 다른 종류의 언어정보처리 손상이 있는지를 평가하기 위해 실시되었다. 실험에 참가한 환자는 이해성 실어증환자(Wernicke aphasic), 전반성 실어증 환자(Global aphasic), 표현성 실어증 환자(Broca aphasic) 등이었다. en 종류의 과제를 이용하였다. 한 과제는 앞 뒤 문장을 논리적 관계성을 표현하는 접속사를 채워 넣는 과제였고 다른 과제는 접속사가 포함된 텍스트가 옳은지를 판단하는 정오 판단 과제였다. 실험재료 문장에 사용된 접속사는 추가적인 정보를 제공하는 '그리고'와 대등 관계를 나타내는 '그러나' 및 인과 관계를 표현하는 '그래서' 였다. 이 세 종류의 접속사는 각기 다른 논리적 관계성을 나타낸다. 실험 결과는 실어증 환자가 전반적으로 채워 넣기 과제에서 보다는 정오 판단 과제에서 더 많은 실수를 보였으며, 표현성 실어증 환자보다는 이해성 실어증 환자가 더 많은 오류를 보였다. 또한, 세 종류의 접속사 중에 '그리고'가 표함된 텍스트에서 더 많은 실수를 보였다. 이 연구에서 나타난 흥미 있는 결과는 표현성 실어증 환자는 '그러나' 접속사가 포함된 텍스트에서의 수행이 '그래서'가 포함된 경우에서보다 좋은 반면에 전반성 실어증 환자는 '그래서'를 포함하는 텍스트에서의 수행이 '그러나'를 포함하는 텍스트에서의 수행이 더 우수해서 이중해리(double dissociation)가 나타난다는 사실이다. 이 결과는 선후 문장이 어떤 종류의 논리적 관계성을 지니는가에 따라 다른 종류의 정보처리가 진행된다는 것을 암시하는 결과이다.>$\textrm{cm}^2$.。C로 비교적 양호한 초전박막의 전기적 특성을 나타내었다.(Mg+Fe)비를 갖고 전자에 비해 Al이 풍부한 환경에서 생성되었으며, 따라서 활석과 연관되지 않은 녹니석은 생성시 광체와 인접한 화강아질 편마암에 의해 주로영향을 받았을 것으로 생각된다. 녹니석의 이러한 2가지 화학조성상의 경향은 녹니석과 공존하는 운모류나 각섬석류들의 화학분석결과와도 잘 일치한다. 이러한 결과는 이 지역의 활석 광상이 초염기성암 기원의 사문암이 열수변질작용을 받아 생성되었음을 명확하게 지시하며, 따라서 활석 광석내에 존재하는 녹니석은 활석의 근원 광물로서 녹니석편암 및 녹니석 편마암 매의 녹니석이 활석화되고 남은 잔존광물이 아니라, 주변암에 의해 성분상의 영향을 받은 열수와 사문암과의 변질교대작용에 의한 활석화과정 중에 주로 생성된 것으로 추정된다. 이러한 결과는 연구지역의 활석광상이 초염기성암의 사문암화 작용과 활석화 작용의 두 가지 변질작용에 의해 형성되어졌음을 알려준다.농도 증가 없이 폐 조직에 약 50배 정도의 고농도 cisplatin을 투여할 수 있었으며, 또한 분리 폐 관류 시 cisplatin에 의한 직접적 폐 독성은 발견되지 않았다이 낮았으나 통계학적 의의는 없었다[10.0%(4/40) : 8.2%(20/244), p>0.05]. 결론: 비디오흉강경술에서 재발을 낮추기 위해 수술시 폐야 전체를 관찰하여 존재하는 폐기포를 놓치지 않는 것이 중요하며, 폐기포를 확인하지 못한 경우와 이차성 자연기흉에 대해서는 흉막유착술에 더 세심한 주의가 필요하다는 것을 확인하였다. 비디오흉강경수술은 통증이 적고, 입원기간이 짧고, 사회로의 복귀가 빠르며, 고위험군에 적용할 수 있고, 무엇보다도 미용상의 이점이 크다는 면에서 자연기흉에 대해 유용한 치료방법임에는 틀림이 없으나 개흉술에 비해 재발율이 높고 비용이 비싸다는 문제가 제기되고 있는 만큼

  • PDF

구문관계에 기반한 유전자 상호작용 인식 (Detection of Gene Interactions based on Syntactic Relations)

  • 김미영
    • 정보처리학회논문지B
    • /
    • 제14B권5호
    • /
    • pp.383-390
    • /
    • 2007
  • 단백질이나 유전자들 간의 상호작용 인식은 생물학적 현상의 기술에 있어서 필수적이고, 이러한 상호작용의 네트웍 파악은 생물학 접근의 시작이라고 할 수 있다. 최근에, 대량의 생물학 관련 문서로부터 자연언어처리 기술을 사용하여 이러한 정보를 추출하려는 연구들이 많이 등장했다. 또한 이전 연구들은 언어학적 정보가 문서로부터 유전자 상호작용을 자동으로 추출하는 데 있어서 유용하다고 주장하고 있다. 하지만 기존의 방법들은 정확률에 비해 재현율이 많이 낮아서 성능이 그다지 좋지 못했다. 정확률의 감소 없이 재현율의 성능향상을 위해, 이 논문은 생물학관련 문서에서 구문관계에 기반하여 유전자 상호작용을 인식하는 방법을 제안한다. 생물학 도메인에 관련된 전문지식 없이, 우리의 방법은 단지 적은 양의 학습데이터를 사용하여 효과적인 성능을 보인다. LLL05(ICML05 Workshop on Learning Language in Logic)에서 제공한 데이터 포맷을 그대로 사용하여, 상호작용하는 두 유전자 중 작용의 주체가 되는 유전자를 에이전트라 하고 상호 작용의 대상이 되는 유전자를 타겟이라 한다. 본 논문에서 제안하는 첫 단계에서, 에이전트와 타겟 유전자에 대한 유전자-전이 구문관계를 인식한다. 두 번째 단계에서, 유전자 간의 상호작용이 있음을 암시하는 용언리스트를 구축한다. 마지막 단계에서, 상호작용하는 것으로 인식된 두 유전자 중 어느 것이 에이전트이고 타겟인지를 판단하기 위해 구문관계의 방향 정보를 학습한다. LLL05 데이터를 사용한 실험결과에서, 본 논문에서 제안한 방법이 학습 데이터에 대해서는 88%의 F-measure 성능을 보였고, 테스트 데이터에 대해서는 70.4%의 F-measure 성능을 보였다. 이 결과는 기존의 방법들보다 훨씬 더 좋은 성능이다. 우리는 성능에 대한 각 단계의 공헌도를 실험하여, 첫 단계는 재현율 향상에 기여를 하고 두 번째와 세 번째 단계는 정확률 향상에 기여했음을 보인다.

의료 정보 추출을 위한 TF-IDF 기반의 연관규칙 분석 시스템 (TF-IDF Based Association Rule Analysis System for Medical Data)

  • 박호식;이민수;황성진;오상윤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권3호
    • /
    • pp.145-154
    • /
    • 2016
  • u-Health에 대한 관심과 IT 기술의 발전에 따라 의료 정보를 적극적으로 활용하고자 하는 요구가 커지고 있으며, 이에 대해 텍스트 형태의 의료 정보 데이터에 연관규칙 기법을 적용하여 질병과 증상과의 관계를 추론하는 시스템에 대한 연구들이 이루어지고 있다. 그러나 일반적인 연관규칙 기법을 의료 정보 데이터에 그대로 적용할 경우, 이전에는 새로운 연관규칙들보다 일반적이며 의미없는 연관규칙들이 많이 생성되는 문제가 발생한다. 또한 필터링으로 인해 빈번하게 함께 발생하지는 않지만 의학적으로 의미있는 항목들의 연관 규칙을 발견할 수 없다는 한계점을 가지게 된다. 본 논문에서는 의료데이터 특성을 고려하여 빈번한 항목과 빈번하지 않지만 의학적으로 의미 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다. 제안 시스템은 의료 기록 데이터에서 용어들을 TF-IDF기반으로 가중치를 부여하고 기존 FP-Growth 알고리즘을 확장하여 TF-IDF 가중치를 고려한 빈번하게 발생하거나 빈번하지 않지만 의미 있는 연관규칙을 구성한다. 특정 질의 데이터가 입력되면 해당 데이터에 나타난 연관 규칙들의 유사도를 의학분야 온톨로지를 이용하여 평가하여 해당 데이터의 내용과 관련된 후보 질병들을 추론한다. 추론된 후보 질병명은 의료 전문가에게 의사 결정의 참고 자료로 제공된다. 실제 임상 진료 및 처방 기록 데이터에 대해 제안 시스템을 적용해 본 결과, 본 제안 시스템을 통해 도출한 연관 규칙이 기존 FP-Growth 알고리즘을 적용했을 때 보다 더 구체적인 질병과 증상과의 관계들을 포함함을 확인할 수 있었다. 또한 본 제안 시스템은 자유형식의 의료 및 병리데이터를 마이닝하고 후보 질병들을 가중치 기반으로 보여주므로, 의료 기록 정보로부터 질병 관련 새로운 정보를 획득하고 의료진의 의사 결정에 도움을 주는 시스템으로 활용될 수 있다.

이중 캐쉬 서버를 사용한 실시간 데이터의 좡대역 네트워크 대역폭 감소 정책 (A Strategy To Reduce Network Traffic Using Two-layered Cache Servers for Continuous Media Data on the Wide Area Network)

  • 박용운;백건효;정기동
    • 한국정보처리학회논문지
    • /
    • 제7권10호
    • /
    • pp.3262-3271
    • /
    • 2000
  • 연속형 미디어 데이터는 대용량이고 실시간으로 전송되어야 하므로 데이터 전송 시에 네트워크에 많은 부하를 주게 된다. 이러한 네트워크는 부하 문제를 해결하기 위하여 프락시 서버가 사용되며 프락시 서버에는 자주 접근되는 데이터가 저장되어 원래의 데이터가 존재하는 서버로의 네트워크 교통량을 줄이게 된다. 그러나 현재의 프락시 서버는 텍스트나 이미지 데이터등의 비 연속형 데이터만을 고려하여 설계되었으므로 연속형 미디어 데이터의 캐슁에는 적합하지 않다. 그러므로 본 연구에서는 연속형 미디어 데이터의 특징을 고려하여 프락시 서버를 두 계층으로 나누어 배치하여 데이터를 캐슁하고 데이터의 접근 패턴과 크기를 동시에 고려한 재할당 정책을 사용하여 캐쉬공간을 관리하는 프락시 서버 관리 정책을 제안한다. 제안된 정책에서는 각각의 LAN 마다 하나의 프락시 서버가 존재하며 각 LAN은 여러 개의 서브LAN으로 나뉘어 져서 이러한 각각의 서브 LAN에는 또한 하나의 서브 LAN 프락시가 존재한다. 이에 병행하여 각각의 데이터들도 각각 전방 분할(front-end partition)과 후방 분할(rear-end partition)로 나뉘어져서 해당 데이터의 참조 유형에 따라 하나의 프락시에 동시에 저장되기도 하고 LAN 캐쉬 서버와 서브 LAN 캐쉬 서버에 각각 따로 저장되기도 한다. 이러한 정책을 사용함으로써 전체 데이터를 단위로 캐슁할 경우보다 데이터공간의 할당과 재할당에 따른 오버헤드가 감소함으로써 궁극적으로는 원래의 저장 서버로의 네트워크 교통량을 보다 더 감소시킬 수 있다.

  • PDF

저사양 임베디드 시스템에서의 실시간 응답이 가능한 터치 기능 연구 (Research on Touch Function capable of Real-time Response in Low-end Embedded System)

  • 이용민;한창호
    • 한국산학기술학회논문지
    • /
    • 제22권4호
    • /
    • pp.37-41
    • /
    • 2021
  • 본 논문은 낮은 사양의 임베디드 시스템에서 터치 입력시에 실시간 응답특성을 나타내기 위해 보간법을 이용한 알고리즘을 도입하여 실시간 응답 처리가 가능한 터치 스크린을 구현하는 연구에 관한 것이다. 본 실험에서는 2점 데이터에서 1차 다항식을 도출하여 임의 데이터를 추정하는 선형 보간 알고리즘과 3점 데이터에서 2차 다항식을 도출하여 임의 데이터를 추정하는 라그랑지 (Lagrange) 보간 알고리즘이 적용되었다. 실험결과로써, 라그랑지 보간법이 선형보간법보다 수식이 복잡하여 처리속도가 느려서 글씨도 매끄럽지 못함을 알게 되었다. 선형 보간법을 사용시 화면에 표시되는 속도가 라그랑지 보간법 사용시보다 2.4배 빠름을 확인하였다. 실시간 응답특성을 위해서는 알고리즘 자체의 우수성보다는 실행파일 크기가 더 작은 알고리즘이 더 유리하다는 점을 확인하였다. 결론적으로, 저사양 임베디드 시스템에서 실시간 응답특성을 확보하기 위해서는 상대적으로 간단한 선형보간법 알고리즘 채용이 라그랑지 보간법을 사용하는 것보다 더 우수한 실시간 응답특성의 터치동작을 수행함을 확인하였다.