Gmail, 카페를 만나다 -google 한국 블로그-
현재 사용하고 계시는 Gmail에 대해서는 어떻게 생각하시나요?
현재 2.6 GB를 넘는 큰 저장용량, 단순한 디자인, 레이블을 사용하는 편리한 메일 정리 방법, 그리고 강력한 검색기능이 Gmail의 장점들이라고 생각합니다.
지메일 초기화면에서도 “언제 주고 받은 메시지든 정확하게 찾으실 수 있습니다.”라고 하고 있고 위에 인용한 네이버 지메일 카페 운영자도 강력한 검색기능이 장점이라고 하는데, 내가 모르는 새 “정확하고 강력한 검색기능”의 정의가 바뀌었나?
그들은 명백하게 “상품”이라 말하는데 일부는 “종교”로 받아들인다.
[업데이트]#1@16:20
검색어와 검색가능 여부. (검색되면 O, 검색되지 않으면 X)
- 불러준 -> X
- 불러준거 -> O
- ZIP코드 -> O
- ZIP코 -> X
- 코드 -> O
- 코드면-> X
- 맨뒤 -> X
- 13850 -> X
똑같은 메일 본문을 가지고 “불러준” 이라는 문자열을 찾는 테스트 했을 때 한메일과 썬더버드에서는 잘 찾아냈다.
“불러준”으로 한메일에서 검색했을 때
“불러준” 으로 썬더버드에서 검색했을 때
저도 저 부분을 보고 이상해서 Gmail 들어가서 이것저것 한국어 검색을 해 보았는데 예전처럼 나쁜 것 같지는 않네요. 수정이 된 것 같습니다. hof님도 한 번 다시 해 보세요.
eruhkim// 여전히 김선영이라는 단어가 본문에 있지만 검색되지 않구요. 다른 검색어로 테스트한 결과를 업데이트 해놓았습니다.
저도 데탑2와 Gmail상에서 키워드가 검색되지 않는 여러 케이스를 발견했습니다. 절대검색은 아니더군요.
저도 gmail의 검색기능에는 좀 황당했던 적이 있지요.. 백업해두었던 첨부파일이 사라진줄 알고 허둥허둥..
이미 그 수준의 검색 기능에 적응해버렸습니다;;
아마도 google의 기본 검색 모토가 부분 단어는 배제하고 단어를 통째로 index하기 때문에 문제가 생기는 것 같습니다. 한글은 조사 때문에 문제가 되는 것 같아요. 차츰 나아지기를.. (사실 웹 페이지 검색이 아닌 이메일 검색에선 부분 단어 검색기능이 있어야하지 않나 생각해봅니다. ㅎㅎ)
구글 데스크탑이 나왔을때 한번 이것 저것 연구를 해보았는데. 유의어/형태소 분석을 전혀 하지 않는것 같습니다. 물론 과도한 형태소 분석은 오히려 더 문제가 되긴 합니다만. 구글은 형태소/유의어를 경계를 줄이고 인덱싱을 늘려나가는 쪽이 그네들의 정책이 아닌가 싶습니다.
검색은 단순 string matching이랑 다르고 구글의 검색 정책이 재현률보다 정확률에 초점을 맞춘 걸 고려하면 지메일에서 위 검색 결과는 그렇게 나쁘지 않은 것 같은데요? 질의에 “ZIP코”나 “불러준”을 넣을 경우는 거의 없지 않나요? (저만 그런가? -_-;)
물론 ‘김선영’이 제대로 안되는 건 분명한 문제입니다.
그리고 gmail은 모르겠지만 구글은 유의어 처리는 하는 것 같습니다. 구글에서 “우리말 검색”을 넣으면 “한글 검색” 결과도 나옵니다. 🙂
데스크탑이나 메일에서는 구글 웹검색에서 하는 수준의 인덱싱을 하지 않는 것 같더군요. 메일이야 레이블과 적절히 섞어서 검색하면 되는데 데스크탑은 좀 개선됐으면 싶습니다. 인덱스 용량이 더 늘어나긴 하겠지만요.